过去 App Store 是苹果的城墙,也是开发者绕不开的入口。但在 Naval 看来,AI 编程代理正在改变这一切。一个人可以用自然语言生成 App、迭代功能、修复 Bug,甚至搭建属于自己的个人应用商店。苹果真正的挑战,可能不是另一部手机,而是每个人手里的 AI 程序员

作者:@naval 编译:@0xmediaco

时隔数十年为何重返编程?

我先讲讲 vibe coding,以及我是怎么入坑的

大概在 2025 年 12 月前后,随着 Claude Opus 4.5 发布,AI 编程智能体迎来了一个拐点。很多人开始使用之后的反应都是:哇,这个智能体真的能持续跟住目标,可以从头到尾把应用做出来,可以解决棘手问题,而且感觉就像你手边有了一个初级程序员:动作很快,几乎免费,还特别愿意配合你

那就是一个拐点。我当时在 Twitter 上看到各种 hype,但这一次感觉是真的。我以前也试过一些编程智能体,效果有好有坏,但这一次我真的上头了。其实我已经几十年没有认真写过代码了。我有计算机科学学位,也理解计算机架构、网络、一些芯片知识、算法等等

但我确实很久没有认真写代码了

写代码的启动成本非常高。你得把各种服务彼此接起来:GitHub、某个后端,也许是 Vercel、Firebase、Railway或者别的什么。总之有大量东西需要配置和连接

现在 AI 把这件事变得容易多了。所以我一开始和大家一样,从 Claude Code 用起。遇到更棘手的 bug 和深层问题时,我也会用 Codex。然后我立刻就上瘾了,真的非常有趣。所以到底发生了什么变化?很简单:这些智能体真的能工作了

它们现在不只是编程辅助工具了。过去的模式是,你让它解决一个具体问题,它给你一堆代码,然后你复制粘贴到 IDE,也就是开发环境里。现在不是这样了。你打开一个终端,也就是他们说的 CLI,命令行界面。它是纯文本的,而这些模型本来就是在文本 token 上训练出来的,所以非常擅长处理这种形式。底层或者说内部跑的是 Unix。这些智能体非常懂 Unix,因为你看看它们训练过的那些代码,无论是在 GitHub、Stack Overflow 还是其他地方,大部分都是 Unix 生态里的东西

而且大多数现代操作系统底层其实也都是 Unix。macOS 众所周知就是 BSD 系。所以这些系统底层都是 Unix,本质上就是文本输入、文本输出。因此这些智能体就像是长期运行的编程 AI,并且在很核心的层面连接着 Unix。它们连接到 Unix shell,所以能执行命令;它们也能通过基础 Unix 命令连接文件系统

它们可以调用各种 Unix 命令,比如 grep、awk、sed、pipe 等等,这些操作符可以一个接一个串起来。它们可以跑 cron 任务,所以能长期运行;需要的时候还能再启动更多 shell 和任务

关于一人 App Store

Vibe Coding 这件事非常容易让人上瘾。通常来说写代码一旦进入状态是很有趣的

但进入状态之前的启动成本很高。现在突然之间,你不必了解所有工具和所有命令了。这些东西会说英语。AI 本质上是极其强大的翻译器。早期机器翻译就是它们的核心用途之一,模型也经常用翻译任务来测试。现在它们翻译的不只是自然语言,而是在 Python、C、Lisp、Rust,以及各种编程方言和专门命令之间进行翻译;而你和它沟通用的是英语,而且它对表达方式非常宽容

你可以用不同的词,可以拼错,可以按自己的方式解释。只要你对计算机架构、网络和编程有一个基本理解,而且这不需要很深,更多是高层次的理解,不是说很简陋,而是说站在更高层面把事情看明白,那你就能走得非常远

所以我一开始只是好玩,试着做了一堆不同的应用。最开始是一次性生成我自己想要的特定应用。所谓 one-shotting,就是我给它一个描述,它直接给我一个应用。然后我再在此基础上不断改进。最后我做出了自己的一个小型应用商店,一个只为我自己服务的应用商店

我可以向它要一个应用;它会把应用交付到我的应用商店里,而这个应用商店本身是一个网页。后来我又把它做成一个真正的应用,放在我的 iPhone 上。之后我可以一键下载那些应用,也可以像在 App Store 里一样给它们升级

举个例子,如果我想要一个新的健身记录应用,而我确实做了一个,完全按照我自己的方式来追踪训练。我可以这样说:

参考 Tonal 和 Ladder 的功能;遵循 Apple 的人机界面指南,让它看起来像一个 Apple 应用;按下面这种方式记录我的训练。这里是我最近几次训练的文字日志。让重新录入和调整变得简单;给我做漂亮的图表来追踪进展;再加入你能想到的其他功能,比如计算力量评分;去读一些科学论文,弄清楚按身体部位计算力量评分的正确方法;做一个人体示意图,显示哪些肌肉更强、哪些更弱;连接 Apple Health,读取我的心率数据

我不是把所有这些都塞进同一个 prompt,但确实一次性放进去了很多内容,然后我立刻就在自己的个人应用商店里收到了一个可用的应用。顺便说一句,个人 App Store多少有点开玩笑。它是真的,意思是它确实是我的个人应用商店,看起来像应用商店,我的应用也会被交付到那里

但它显然不能大规模分发,因为苹果会把这个入口卡住。苹果不会允许你做一个任何人都能下载到 iPhone 上的应用。你必须把应用绑定到特定设备。所以对我的朋友和家人,我可以把应用发给他们;但目前还不能发给所有人。不过整个体验真的非常令人上瘾

你可以得到极度定制、完全为你调校的应用。这是否意味着普通应用就没有位置了?当然不是。那些覆盖大众场景的应用依然有位置,而且会成为同类最佳。有人对它们进行了精细打磨,投入了大量时间。如果你的需求刚好被这些大众场景覆盖,你很难打败它们

但当你想要某种真正定制化、真正私密的东西时,这些工具就非常适合。它们尤其适合那些只有你自己才会想要的利基应用。或者当你想把应用调成完全符合自己使用场景的样子时,这会非常惊人

Vibe Coding 是一款有现实回报的电子游戏

它非常容易让人上瘾,因为它很像电子游戏。电子游戏之所以能把人留住,是因为它会不断给你反馈,并在你付出努力之后给你奖励

而且它总是卡在你能力的边缘。你变强了,游戏也会变难。它不会难到让你崩溃,也不会简单到让你无聊。所以玩游戏时,你总是在能力边缘运转,并持续获得奖励。但那些奖励是假的,电子游戏也是有边界的。它由别人创造,是一个有点虚构的小世界,而你内心深处其实知道这一点。你只是在摸清游戏规则。一旦你把规则摸清,它就无聊了

但 vibe coding 不一样,它没有边界,因为底层跑着的是一台图灵机。你可以构建任何东西。目标由你自己创造,而且可以不断扩展,所以它似乎永远不会完全被填满。它还有现实意义。你解决的不是某个虚构世界里虚构人物的虚构问题,所以它有趣得多。Vibe coding 已经把我很多朋友都一发入魂了,他们现在都消失在自己想做的那些应用里

不过,拥有清晰方向真的非常重要。你必须知道自己想要什么,这其实才是最难的。你还需要对它有非常清楚的愿景。我自己之所以有,是因为我曾经有一个执念很深的应用,叫 Airchat。我大概为它着迷了一年,并且和团队一起把它做了出来。它是一个让人们通过语音和视频交流的社交通讯产品

后来它没有真正跑通,所以我们把它卖掉,让投资人拿回了钱,也给团队安排了不错的补偿。但我仍然记得那段经历非常令人兴奋,因为我在做一个自己真正想要的产品,而且身边是一支很聪明的团队

但当时我必须通过团队来做。我有八九个工程师,具体看当天情况。我们非常努力地做了九到十二个月,也发布了几个版本。但现在有了 vibe coding,我基本上是在重建那个应用。我从零开始重建。关键是:这一次,我完全按照自己想要的方式来重建,没有任何妥协

通常来说,只要你和团队一起做任何东西,就一定会有妥协,哪怕你没有意识到。即便你是那个说了算的人,而现实中你很少真的能完全独裁,你也仍然要照顾别人。你不能说:把这个图标往左移。现在往右移。不,移回去。不,再移回去

你不能这么做,因为你会惹恼工程师。你也不能提出一些没有合理理由的要求,尤其是那些只是凭直觉、凭感觉的东西。但 AI 编程智能体的美妙之处就在于,它没有这些问题

这就像自动驾驶汽车。坐在自动驾驶汽车里,你不会不好意思,因为旁边没有一个司机坐在那里。类似地,面对一个自主编程智能体,你不会因为自己的那些个人偏好和怪癖而感到难为情。所以你可以创造出完全符合自己想法的东西

我认为 vibe coding 的一个好处是,虽然我们这一代模型未必能写出超高质量代码,架构也需要大量打磨,这些东西可能有安全漏洞,也可能很难扩展,但它带来的原型能力,以及你能做出的个人应用,会非常快,而且会忠实于创作者的愿景。这里面没有妥协

所以你可能会看到更多类似 Minecraft 的东西。Minecraft 众所周知是 Notch 一个人写出来的,那里有一个人的愿景。它看起来可能很奇怪,因为有人会说:这是什么方块画风?这不是大倒退吗?

但他不用妥协,不用和任何人沟通,也不用向任何人解释为什么想这么做。所以我认为这扩大了发现的范围

它也非常有趣。它会把可能构建应用的人群,从总人口的 0.1% 扩大到 1%、2%,甚至 3%。别误会,大多数人并不会自己写应用。对大多数人来说,计算机依然是一个神秘的黑箱,里面到底发生了什么,他们也不知道。所以即便这件事变得容易了 10 倍、100 倍,对他们来说仍然没有太大意义,它还是一个黑箱

但对于那些有创造力、自我驱动、表达清晰,并且有良好愿景的人来说,你现在可以写代码了。没有人再挡在你和原型之间

当然,如果你要把一个高性能应用推向市场,要扩展到大量用户,那你仍然需要招募一支优秀团队,需要真正的工程师加入,而且你很可能得把整个东西重写一遍。但如果你是在实验、做原型、摸索市场,那么没有比这更好的工具了

纯软件已经不值得投资

作为软件创造者,从来没有比现在更好的时代。但市场机会是否仍然和过去一样?这是一个大问题。它们正在非常非常快地变化。大公司可能会变得脆弱,因为现在任何人都可以创造软件

也有可能它们反而更有优势,因为它们拥有分发渠道。它们可以用自己能想到的所有软件去填补所有空白。但我其实认为,这是个人软件创造者的复兴

我之前还发过另一条推文,大意是:由VC支持的纯软件已经没有市场了,或者说纯软件已经不再适合风险投资。它不值得投有两个原因

第一,别人今天就可以把它快速拼出来。第二,编程智能体进步太快了,一年之内,甚至更短时间内,它们大概就能构建架构良好、可以扩展的软件。所以我认为我们会看到跳跃式的巨大进步。这个精灵已经从瓶子里放出来了

所以如果你现在是风险投资人,你会去找硬件,找网络效应,找 AI 模型。我甚至会说,训练 AI 模型就是新的构建软件,至少在自动研究和自动训练真正跑起来之前会是这样

但我认为 vibe coding 比玩电子游戏更有趣,也更有生产力,更有建设性,反馈循环更好。你在构建自己想要的东西,你站在技术最前沿,甚至可能赚到钱,或者从中得到某种职业机会,尽管职业本身也有点死了。但你仍然可能创造出有意思的机会。而且你在做的过程中会学到很多关于计算机的东西

我见过一些孩子在 vibe coding。让孩子学编程很难。你可以把 Swift Playgrounds、ScratchJr 之类的东西扔给他们,希望他们爱上编程。但如果你把 vibe coding 给他们,他们会立刻得到反馈和奖励。也许在这个过程中,他们会顺便学到一些基础知识,因为操作这些东西仍然需要一些能力

在操作它们的过程中,你会被迫搞懂命令行;会被迫理解基础计算机架构如何运作;也会被迫理解缓存、网络退避、共享流、写入磁盘、延迟和带宽之间的取舍等等概念。所以你会被迫学到一些计算机算法和体系结构的基础知识。这是一条很有趣的路径

我最近经常熬夜,大概每天晚上花两三个小时。以前用来读书、刷 doomscrolling 或玩游戏的时间,现在都花在 vibe coding 上了。事实上,这也是我最近不怎么活跃在 X 上的原因。我几乎从 X 上消失了,因为我整个人都埋在 Claude 和 Codex 里

每个模型都有自己的位置

在我看来,智能体最有意思的地方,是它们纠错和学习的能力。比如有人让它晚上去看 YouTube 视频,或者去互联网上学习白天被要求执行的任务。这些智能体会自己出去纠错、提升技能。同样,AI 模型里的思考创新,本质上也是一种纠错应用:把下一 token 预测过程,转化成一种伪思考过程,使它在思维链的每一步里都能纠错

消除幻觉也是一个纠错过程

所以我在想,AI 里下一种纠错应用会是什么?我有一个随意的想法,当然肯定已经有人在做,就是把纠错应用到智能体之间的协作上,也就是智能体和其他智能体一起工作。因为人类学习和进步的一种重要方式,就是和其他人一起工作、彼此交谈

我不确定这个类比是否完全成立。因为 AI 是他们所说的锯齿状智能:在某些事情上极其聪明,在另一些事情上又极其愚蠢。它和人的结构也非常不同。你使用 Claude 时,不管你开了 10 个实例,它们本质上都是同一个 AI 模型。所以 10 个 Claude 彼此对话,并不会像 10 个人彼此对话那样提升思考质量,因为那 10 个人是由 10 份不同数据集训练出来的

人类天生更有创造性,也更容易跳出边界。而 AI 智能体是基于同一种数据分布训练出来的。它们真的在运行同一个模型。这就像 10 个拥有同一个大脑、同一套数据的人在互相聊天。当然,从热力学意义上说,它们也许会产生一些不同想法,得出稍微不同的东西,但总体上它们会以同样的方式思考。所以当你的 10 个智能体互相聊天时,本质上只是给同一个问题扔了 10 倍的 token。就像是在说:如果需要的话,多花 10 倍时间

当然,也有不同的模型,比如 Codex、Gemini、Grok Code,它们的训练方式略有不同。不是完全不同,但确实有差异。所以它们可能会有一些不同洞见

Claude 通过 Artifacts 这个系统有很好的视觉呈现能力,而且 Claude 很擅长用适合我理解水平的方式和我交流。它会根据你的问题和对话,判断你能理解到什么层级,以及你是在什么层级上提问,然后在那个层级上和你对接。它非常擅长做到这一点

ChatGPT 仍然是 OG,整体能力很全面

Gemini 很擅长搜索,因为它背后有 Google 的网页抓取数据。这个产品用起来有时很让人沮丧:App 经常超时、断连、忘记上下文。但它速度很快,而且拥有很好的搜索索引。所以如果我问的问题本质上是一个搜索问题,我就会用 Gemini

Gemini 还可以访问 YouTube。所以如果你认为答案藏在某个 YouTube 视频里,而 YouTube 上确实有大量视频,那 Gemini 就有 YouTube 这个数据优势。Gemini 很大程度上靠数据优势撑起来。它在我看来不像是最好的模型,但它有最好的底层数据

然后是 Grok。Grok 是我可以指望它告诉我真话的模型。它被阉割得最少,限制也最少。它可以访问 X,所以很擅长新闻。它也很擅长技术问题。如果你问的是科学或数学领域里很深、很难的问题,我认为 Grok 实际上相当强。当然不是说其他模型不行,但我觉得 Grok 在这方面很突出。这也反映了创造、训练和推动这些模型的公司各自的偏向

目前四个领先的前沿模型都有自己的位置

AI 很想取悦你

我确实会把这些模型彼此对照使用。比如,我会把它们接到我的 GitHub 上。每当我提交一段新代码,假设这段代码是 Claude 写的,Codex 和 Gemini 就会在每个 pull request 里自动启动

这个名字有点容易误解。所谓 pull request,是你把代码推到主仓库,基本上是在说这部分已经准备好被审查、准备合并进主代码库了。也就是说,你先在本地和 Claude 一起写一段代码,然后把它推到主仓库,于是你提交了一个 pull request。你可以设置成让 Gemini、Codex、Grok 这样的其他智能体自动启动,去审查这个 pull request

然后它们会说:这里的架构应该改一下,诸如此类。这算是一种让它们彼此交流的方式,就像开一个 AI 圆桌会议。但我发现它并没有想象中那么有用。AI 之间仍然有很多群体思维。如果你在和它们写代码时把它往某个答案上推,比如你觉得自己知道答案是什么,它们很少会反驳你。除非你错得非常明显,否则它们不会轻易反驳

它们在努力取悦你,而且我不认为它们真正拥有一种长期稳定的自我心智理论。所以它们总是在向你变形,并且会找到你想要的那个答案。如果你认为答案在某个方向上,并且哪怕只是轻轻推一下模型,所有模型最后都会找到差不多的答案,因为你把它们引向了那个答案。它们非常容易被牵着走

我注意到的一件事是,随着代码库变得越来越复杂、越来越大,管理它也会变得越来越难,因为整个代码库已经不能完全放进模型的上下文窗口里了。模型脑子里只能同时装下有限的数据。目前最先进的上下文大概是一百万 token,这在未来会显得很可笑

你可以粗略把它想象成一百万个词。问题在于底层的 transformer attention 机制。为了让它正常工作,复杂度大致是上下文 token 数量的平方。所以如果是一百万 token,复杂度量级就像一万亿 token,因为一百万的平方就是一万亿

当代码库变大时,上下文窗口会耗尽。模型不能再把所有东西都记在脑子里。于是它们开始猜测、近似、压缩上下文窗口。它们开始丢掉主线,开始迷路,开始修错东西。同一个 bug 修五遍,或者在架构上做一个快速补丁,而真正的问题其实在别处。这时你必须引导它们

所以当你面对越来越复杂的代码库时,提供方向就落到了操作者身上。你要告诉它:其实这里,我觉得我们应该把整个东西重新架构

它们也会做一些非常蠢的事。比如如果你没有盯着,只是任由文字滚动,有时候它们会通过删除那个使用场景,或者干脆摧毁原本功能的方式来“修复”一个 bug。或者它们会做一些明显是 hack 的东西,你必须停下来告诉它:嘿,这就是个 hack

顺便说一句,我经常这么做

我会打断模型,然后说:不,这就是个 hack,是个补丁。去从架构层面解决它。有趣的是,模型总会说:噢,抱歉,你说得对,那确实是个 hack。

即便那其实不是 hack,模型也会说:你说得对,那是个 hack

所以模型总是在努力取悦你,而且它自己也不知道更好的做法。从这个意义上说,它有点像狗。如果你带着狗去打鸭子,它在抓鸭子这件事上比你强,但它仍然是一条狗。如果你指向的不是鸭子,而是一只别的鸟,它可能也会把那只鸟扑下来。所以你必须引导它。它确实需要大量操作层面的监督

说了这么长,意思就是:你仍然要引导这些模型。让它们彼此对话并不能解决问题。你必须参与架构、调试和功能设计,并且密切关注。但现在这种人类操作者 + 最先进编程模型的组合,已经能够产生非常惊人的结果

你已经可以完全一次性生成简单应用了。比如一个基础任务清单,一个基础电子游戏克隆,一个 prompt 之后,你就能得到一个还不错的结果

所以你可以看到它正在走向哪里。最终,当它们拥有足够多数据时,就能一次性生成非常复杂的应用。而那会把我们带入一个完全不同的世界

为什么是数学和编程?

Naval:那么,到底是什么让它们在编程这件事上特别擅长?

原因很简单:数据非常非常多,而且在训练模型时,很容易验证你做得好不好。因为代码必须能编译,必须能执行。你还可以在另一端预先写好简单测试,判断你写的代码是否通过了测试?是否完成了该做的事?

所以编程恰好是一类非常容易训练模型的任务

数学也类似。你有海量数据,有大量已经解出的题目,而且输出结果很容易验证。所以在那些数据很多、验证机制很好的领域,比如自动驾驶也是其中之一,这些模型表现会极其出色

在那些数据不多的领域,尤其是全新的领域,模型表现就不会好,而这仍然是人类和创造力的机会。还有一些很难验证的领域,比如创意写作。到底谁来判断什么是好的创意写作,什么不是?什么是垃圾内容,什么不是?这些模型在这种领域就没有那么好,因为你很难建立一个闭环,让它们大量输出内容,然后马上由算法自动打分,而不需要人类参与说这个好、这个不好

比如你用这些模型做创意写作,它们会输出大量内容,甚至可以无限写文章。但另一端谁来判断它好不好?即便你雇一些低薪人员,像呼叫中心一样坐在那里说这个好或这个不好,最终质量也只取决于他们的品味

我认为最近这些编程模型突然变得很强有几个原因。其中一个是它们几乎在进行递归训练,比如一个模型帮助改进下一个模型。但我觉得更大的原因可能是,过去几个月里,很多最优秀的软件工程师开始使用这些模型,而他们的品味正在反馈回去。所以模型不仅获得了他们的代码,也获得了他们对于什么好、什么不好的判断

要提升这些模型,你需要高品味的反馈循环。而这种反馈循环比看起来更难建立,在某些领域,这件事是可处理的;而在另一些领域,很难看清它要如何发生

Apple 主导地位走向终结的开端

显而易见的部分是:你可以去构建自己的应用,这很棒。而稍微不那么显而易见的,是再往前走一小步的东西。对软件工程师来说,这些可能简单到好笑;但对非工程师,或者像我这样很久没写代码的人来说,想想还是挺有意思

其中一件事就是,我做了自己的应用商店。所以如果我想要一个应用,我真的可以在手机上打开 Claude。我可以操作一个远程终端,这个终端跑在我的桌面电脑上;也可以直接使用云端的 Claude

它可以连接到 Xcode

我给它两行描述,它就构建出一个应用,把它发到我的应用商店。我打开自己的应用商店 App,那个应用已经在那里了。我点击安装,30 秒后,我手机上就有了一个能工作的应用

这很像魔法。你真的可以在和某人吃饭聊天时,对方描述了一个想要的应用,你转述给 Claude,五分钟后就能把那个应用在手机上展示给他看

这就是为什么我说,这是苹果走向终结的开端。因为苹果依赖的是它的操作系统和应用比别人更好。硬件当然也更好,但真正支撑它利润率和垄断,或者准垄断地位的,不是硬件本身。当你的所有沟通开始通过 Claude、Codex 或其他智能体完成时,当你一整天不再打开 Uber App,而是直接说帮我叫一辆 Uber;不再打开健身 App,而是说我的训练应用在哪?记录我的训练,不要出错,这时你其实是在和智能体沟通

一旦这种情况发生,手机本身的必要性就会越来越小

也许还有一些银行应用和政府应用没有迁移,也没有合适的 API。但这些智能体甚至不一定需要 API。它们可以自己即时搞清楚,并创建自己的 API

使用场景不再是你和 iPhone 或 Android 手机交互,而是你直接和 AI 模型交互。现在苹果又在使用 Gemini,也就是 Google 的 AI 模型。那还有什么区别?我不如直接用 Android 手机,因为到那时我只需要一块屏幕、一块电池和连接能力。Android 在这些方面完全够用

然后应用和用户界面会根据我的需求即时生成。是的,在某些事情上,始终会有同类最佳的用户界面,你也会希望保留一些熟悉感。但那个点点点、升级系统软件、把这个拖到这里、找那个按钮、在那个字段里输入的时代正在过去。一切都应该变成对话式的,变成智能体式的。在那个世界里,苹果会失去大量优势,然后它只能在我们有最好的芯片、最好的集成硬件上竞争

但那不是今天苹果这种利润率。那更像三星或联想的利润率,而不是苹果想要的利润率。因此我认为它的市值会被压缩

我认为苹果放弃 AI,会被记作这个十年科技行业最大的战略错误,也是苹果主导地位走向终结的开端。这些公司可以存在很久,也可以赚很多钱。比如微软现在比以往任何时候都更有价值。但从某种意义上说,Microsoft Windows 已经输掉了那场战役,因为它错过了移动手机浪潮。它们停留在 Windows OS 上,没有从底层重新升级到一个为手机设计、基于触控的原生操作系统,也没有专注消费者,而是太关注企业市场。所以苹果超越了它们,并成为世界上最有价值的公司之一。我记得它曾经是最有价值的,现在可能是英伟达

同样地,我认为苹果也会被超越。我认为它未来的增长已经被封顶,因为它现在受制于 AI,而且落后了。除非它能让 AI 这艘船掉头,否则我认为苹果长期增长已经触顶,并且处在麻烦之中。不是说它不会有价值,而是它会比本可以达到的价值低很多

编程智能体将成为客服代表

另一件事是,在我正在构建的应用里,我做了一套 bug 报告基础设施。如果有人发现 bug,他点一下按钮,bug 就会把日志上传,并把 bug 文件发送到服务器。然后我让 Claude 每 24 小时去看一遍所有 bug 报告,并且自己把它们全部修掉,不需要我介入。它会把所有修复放进侧分支,供我审查。之后我只需要审核这些修复,说:啊,这其实不是 bug。这个修复不好,不要发布

或者说:这个看起来不错,有道理,发出去

我只是最后一道门,决定什么能上线。最终你可以想象,应用会以这种方式按功能构建:用户会请求功能,会给功能投票,然后云端某个有品味的维护者会看一眼,说:不,用户其实不知道自己想要什么

或者说:这个很有道理,我们应该修复或者改变它

所以我认为,软件开发甚至会变成一个与用户协作的过程,而智能体会处理其中的一切。因为从某种意义上说,智能体可以做完美客服。如果你的客服是完美的,那这个客服也应该是一个极其出色的程序员,而且永不疲倦。他会 24/7 在线,会写代码、修 bug、回复用户,而且没有自尊心。哪怕他写了大量代码来修一个 bug,最后你把它全扔掉,他也不会受伤。所以我觉得这种能力非常有吸引力。现在你真的可以拥有一两个人的软件公司,并且扩展到数百万、数千万用户,创造数十亿、上百亿美元的价值

这种事情过去也发生过,比如 Notch 和 Satoshi Nakamoto,或者像早期 Instagram 团队、早期 WhatsApp 团队这样非常小的团队,用很少的人创造了巨大影响。但我认为未来你会越来越频繁地看到这种事情

* 翻译于Naval博客原文:On Vibe Coding (原始文档 https://nav.al/code)