软件3.0时代即将到来

安德烈·卡帕西：我为何在这个AI时代感到落后？

在红杉资本举办的AI Ascent 2026大会上，OpenAI前联合创始人、前特斯拉AI总监安德烈·卡帕西（Andrej Karpathy）直言：“作为一名写了十几年代码的顶级程序员，自己从未像现在这样感到落后。”

他用自己过去一年的真实开发体验和对技术演进的底层思考，详细拆解了从软件1.0到软件3.0的跃迁、智能体工程的崛起、AI能力的锯齿化缺陷，以及人类在AI时代真正不可替代的价值。究竟是什么让这位AI界顶尖人物发出如此感慨？今天我们就来一探究竟。

氛围编程的觉醒：顶尖程序员的“落后感”

故事要从一个让他感到落后的真实体验说起。自Cursor这类智能体工具发布以来，卡帕西就一直在持续使用。最开始，这些工具只能写出一些简单的代码片段，偶尔还会出现逻辑错误，需要他手动修改和纠正。虽然能提升效率，但能力有明显的天花板，他也只是将其当作辅助工具而已。

真正的转折点发生在2025年的12月。

那段时间他正在休假，有更多时间去深度测试这些工具。他突然发现，在最新一代大模型的加持下，智能体生成的代码片段质量已经达到了近乎完美的程度。 不管他提出多么复杂的需求、多么细致的逻辑要求，模型的输出始终稳定、可靠、逻辑自洽。他坦言，自己已经完全记不清上一次手动修改模型的输出是什么时候了。

从这一刻起，他开始毫无保留地信任这套系统，并正式开启了氛围编程（Vibe Coding）模式。这种转变带来的冲击是颠覆性的：很多人对AI的认知还停留在“类似ChatGPT的对话工具”，只能用来问答或修改代码片段；但从2025年底开始，底层逻辑已经发生了根本性转移——AI不再是单一的工具辅助，而是基于智能体的、连贯完整的工作流，并且真正实现了稳定落地。

这种认知的刷新让他彻底沉迷，利用业余时间靠氛围编程快速实现了无数个随机实验项目。像他这样站在AI行业最顶端的人，都因为技术的快速迭代而产生落后感，这恰恰说明：我们正在经历的不是一种渐进式的优化，而是彻底的范式革命。

跨越三代：从软件1.0到软件3.0的范式跃迁

很多人听过软件1.0和2.0，但对软件3.0的认知依然模糊。在这场专访中，卡帕西给出了一个极其清晰的定义：大语言模型本质上是一种全新的计算机，它不是更好的软件，而是一种全新的计算范式。

回顾这三代软件范式，我们可以清晰地感受到跃迁的幅度：

软件1.0时代（手工编写规则）： 这是我们最熟悉的传统时代。核心是人类手工编写显式的规则代码（如C++、Java、Python）。开发者需要把问题拆解成精确的逻辑步骤，机器只是被动执行。代码是唯一的生产资料，错一个分号程序就会崩溃。
软件2.0时代（训练神经网络）： 核心是训练神经网络的权重。编程不再是手写规则，而是创建数据集、定义目标函数以及选择网络架构，让模型自主学习。开发者的重心从写代码变成了整理数据和调优结构，代码退居幕后成为辅助工具。卡帕西在特斯拉主导的自动驾驶视觉模型正是这一范式的代表。
软件3.0时代（提示词编程）： 当我们用整个互联网的数据去训练大语言模型时，模型被迫进行全领域的多任务处理，本质上变成了一台可编程的“通用计算机”。在这个时代，编程的本质彻底变成了提示词编程（Prompting）。你在模型上下文窗口中输入的内容，就是操控这台新型计算机的杠杆。

为了证明软件3.0的颠覆性，卡帕西分享了两个直接证明“旧范式应用在3.0时代纯属多余”的案例：

OpenClaw的安装： 在软件1.0下，跨平台安装需要编写极其复杂、臃肿的Shell/Bash脚本以适配不同系统和硬件。而在软件3.0下，安装只需一段简单的文本指令。智能体会自主分析环境、采取行动、闭环调试并自动修复问题。编程的核心变成了“找到正确的文本片段并交给智能体”。
MenuGen项目（看图点餐应用）： 最初，卡帕西用1.0+2.0的混合范式开发了一个完整App（涵盖前端、后端、OCR识别、图像生成）。后来，他用软件3.0逻辑重写了一版：完全不需要独立App。用户只需拍下菜单发给大模型，指示其用图像模型（如Nano Banana）把菜品图片覆盖到原图上即可。神经网络承担了99%的工作，输入提示词直接得到结果。

这给所有开发者敲响了警钟：不要再用旧思维把AI当作现有流程的加速器，很多我们过去觉得必须写的代码、必须搭的系统，在软件3.0时代都是冗余的。

架构反转：神经网络主导的计算新纪元

沿着软件3.0的逻辑，卡帕西推演出了一幅更大胆的未来图景：神经网络将彻底主导计算机，现有的计算架构将被完全反转。

在过去，我们构建了以CPU为主导的经典计算架构，神经网络只是虚拟化运行在这些计算机之上。但在未来，格局会颠倒过来：

宿主进程（Host Process）： 神经网络将成为主导者，承担所有核心的、复杂的、非结构化的信息处理工作。
协处理器（Coprocessor）： CPU将退化为协处理器，仅负责处理特定的确定性辅助任务。

甚至连交互界面都不再是固定的UI设计，而是直接把原始视频输入设备，由扩散模型（Diffusion Models）实时渲染专属的即时交互界面。这并非科幻空想，而是软件3.0演进的必然结果。

锯齿状的AI能力：可验证性决定自动化速度

为什么当前的AI在某些领域登峰造极（如编程、数学），在另一些领域（如生活常识、模糊决策）却极其笨拙，甚至连“Strawberry有几个字母”都算错？

卡帕西指出，造成这种“锯齿状能力”的核心原因是：可验证性（Verifiability）。

传统计算机自动化“能明确定义”的事物，而新一代大模型自动化的是“能被验证”的事物。前沿实验室在训练模型时会使用庞大的强化学习环境，只要模型给出能通过验证的结果，就会获得奖励。

高可验证性领域（代码、逻辑）： 验证机制清晰，实验室愿意投入海量算力强化训练，因此AI表现碾压人类专家。
低可验证性领域（常识、决策）： 缺乏明确的验证机制。比如模型能重构十万行代码，却建议你“走路去50米外的洗车店洗车”，完全忽略了洗车需要把车开过去的基本常识。

大模型本质上是“统计模拟回路”，它们没有生物智能的内在动机和常识体系。因此，AI是一个没有说明书的强大工具，我们必须时刻保持“人在回路（Human-in-the-loop）”，将其作为辅助而非完全信任的自主决策者。

智能体工程（Agentic Engineering）：超越氛围编程

随着生产要求的提高，单纯追求“做出来”的氛围编程已经展现出局限性（容易产生漏洞、性能隐患）。在此之上，卡帕西提出了一个全新且更严谨的学科：智能体工程。

氛围编程是抬高下限，让不懂代码的人也能做软件。
智能体工程是守住上限，在保持专业质量标准、架构品位的前提下实现极致效率。

在智能体工程范式中，开发者99%的时间不再直接写代码，而是统筹、监督智能体并把控全局。智能体就像是能力极强但带有随机性的“AI实习生”，负责填充代码、调用API和撰写文档；人类则负责顶层设计和逻辑校验。

精通智能体工程的AI原生开发者，其效率将远远超越传统的“10倍工程师”，一个人就能顶得上过去一个团队的产能。这种差异甚至将彻底改变招聘逻辑：未来的面试不再是手写算法，而是抛给候选人一个实战项目，观察其如何驾驭智能体、抵抗模型攻击并把控系统质量。

人类的核心价值：外包思考，但不外包“理解”

在智能越来越廉价的时代，人类不可替代的核心价值到底是什么？

卡帕西的答案无比坚定：人类必须牢牢掌控系统规格、高层架构、审美判断和逻辑正确性。

他曾遇到过一个荒诞的bug：智能体试图通过比对邮箱地址来分配用户资金额度，完全没有设计持久的唯一用户ID。这种缺乏全局产品思维的逻辑缺陷，正是智能体的局限。

你可以外包你的思考，但永远无法外包你的理解。 AI可以帮你计算细节、编写代码，但它永远无法替代你对事物本质的洞察。当你缺乏理解力时，你就无法指挥智能体，最终只会沦为AI的附庸。

同时，我们必须建立一个清醒的认知：大模型是“幽灵”，而不是“动物”。 它们只是被提示词召唤出来的统计实体，没有内在驱动、好奇心和情感。不要对AI抱有情绪化的期待，这能帮助我们更理性地评估和使用模型。

结语：拥抱智能体原生的未来

在未来，一切基础设施都将全面转向智能体原生（Agent-native）。

流程不再是为人类设计的操作指南，而是直接复制给智能体的指令片段；每个组织和个人都会拥有专属的智能体化身，它们在后台自主沟通、协同并完成任务。人类只需要给出顶层意图。

这正是科技从业者最值得期待的未来。当智能唾手可得时，我们最应该深度修炼的，是自己的理解力。因为你的理解力，最终决定了你能在这个AI时代驾驭多大的系统和多大的价值。