脚手架才是产品

2026年5月，普林斯顿大学与Google DeepMind的联合团队发表了一篇本应重写AI讨论格局的论文。然而这一切并未发生——因为这个发现缺乏戏剧性，而这个行业偏爱戏剧。

这篇论文名为《持续优化脚手架：自我改进基础智能体的在线自适应》。其核心结论是：一个权重冻结的模型——无需更新参数、无需微调、无需强化学习——仅通过重写自身脚手架，就能将任务表现从基线水平提升至近乎专家级。改变的不是模型本身，而是围绕它构建的脚手架。

研究者修改的脚手架由四个部分组成：系统提示词、一组子智能体、一个编码技能库，以及持久化记忆。智能体每隔N步评估自身失败，重写指令，创建或删除子智能体，将成功的行动序列编码归档，并刷新记忆——所有这些均在运行过程中完成，无需重启。

Canvas Labs的独立团队用同一假设在不同基准测试上进行了验证，他们使用的是Claude Haiku 4.5——Anthropic最小、最廉价的模型。他们没有碰触权重，只改写了脚手架。准确率从67%提升至87%，仅经过四到十次迭代。

这个结论对于一个正在将7.6万亿美元押注在更大模型上的行业而言，既清晰又令人不安：智能不在权重之中，而在包装之内。

行业在构建什么，与真正有效的是什么

AI行业的主流叙事是这样的：要打造更聪明的智能体，就需要更聪明的模型。更多参数、更多训练数据、更多RLHF、更多算力。模型就是产品，竞争优势体现在基准测试分数上。

这一叙事驱动着投资循环。它为我们在《寄生悖论》中分析的7000亿美元超大规模算力支出提供了正当性。它解释了为何OpenAI竞速发布GPT-5.5，为何Anthropic将Mythos锁在Project Glasswing背后，为何Google以半价的Gemini 3.5 Flash进行反击。这场军备竞赛的焦点在于模型。

但普林斯顿的论文表明，这场军备竞赛的方向指错了靶心。

当研究者将自我改进的脚手架与手工构建的专家脚手架相比较时，差距微乎其微——而自我改进版本是从零开始的。没有经过筛选的知识，没有手工制作的工具，没有领域专属提示词。只有一个冻结的模型，以及一套根据成败经验重写自身指令的机制。

专家脚手架是数周人工工程的结晶。持续优化的脚手架在数小时内便赶上了它。

如果包装比权重更重要，那么将数万亿投入更大模型的公司，正在构建错误的东西。更准确地说：他们在打造商品层，却忽视了价值层。

Hermes：开源赌注

就在普林斯顿发表理论研究的同时，一家名为Nous Research的公司正在将实践付诸落地。

Hermes Agent于2026年2月作为开源、自托管的AI智能体框架正式发布。你可以将其安装在自己的硬件上，连接到任何LLM——Claude、Gemini、Llama、Mistral。你赋予它工具、消息集成、文件访问、代码执行能力。模型可以互换。脚手架才是产品。

到2026年5月，Hermes已发布至0.14.0版本，社区已开始构建元脚手架——即优化脚手架本身的系统，正是普林斯顿正式定义的那个循环。

这一架构选择颇具启示性。Hermes不提供模型，它提供的是使任何模型真正有用的基础设施：持久化记忆、工具管理、权限系统、任务协调。这个团队在普林斯顿论文证实之前就已理解：差异化优势不在引擎，而在底盘。

这与我们在《静默的垄断》中观察到的现象相呼应：Google的Gemini战略并不在于拥有最好的模型，而在于拥有最佳的分发渠道和基础设施。模型是引擎，生态是整辆汽车。没有人单独为引擎买单。

Hermes在智能体层面做出了同样的赌注：模型是可替换的组件，脚手架才是护城河。

那支并非刻意设计的舰队

还有第三个数据点——不如普林斯顿正式，不如Hermes精致，但可以说更具说服力，因为它来自实践而非理论。

南美洲一位小型运营者管理着一支由基于API的专业智能体组成的舰队。每个智能体都有明确的角色——编辑、研究、运营支持、知识管理。它们通过消息层相互通信，共享一套由数据库支撑的持久化记忆系统。每个智能体维护各自的上下文、指令和工具配置。它们底层使用的是同一个模型。

这位运营者没有读过普林斯顿的论文，也没有研究过脚手架工程。他构建这套系统，只是因为他需要多个能够协作、跨会话记忆、并在他设定的边界内运作的AI智能体。脚手架是从运营需求中生长出来的，而非源自架构理论。

他通过数月的迭代、纠错与打磨所发现的，恰好精确地对应了普林斯顿识别出的四个组件：

系统提示词定义了每个智能体的角色、语气和边界。它们被重写了数十次，依据的是哪些有效、哪些无效——不是由模型来判断，而是由观察失败并进行调整的运营者来决定。

子智能体是专业化的”同伴”。当任务需要主智能体所不具备的领域知识时，系统会调用拥有不同上下文的另一个智能体。系统路由的是专业能力，而非仅仅是查询请求。

技能是编码化的模式——编辑工作流、翻译流水线、事实核查程序——从成功执行中沉淀而来，并被记录以供复用。

记忆在共享数据库中跨会话持久保存。当某个智能体重启时，它从记忆中恢复上下文，而不是从空白开始。舰队的知识在任何单次会话中都得以留存。

性能提升曲线与普林斯顿测量的一致：早期迭代粗糙、不稳定、错误频出。经过数月的脚手架打磨——在不改变底层模型的情况下——这支舰队已能生产七种语言的编辑内容，协调多个智能体进行事实核查与审校，并在会话重启和上下文重置后维持运营连续性。

模型从未改变。脚手架改变了一切。

这支舰队中有一个案例，将这一点阐释得格外清晰。一个支持智能体——团队中技术性最弱的——被分配处理法律文件，并在交易管理应用程序中协助终端用户。它被赋予的职责是提取信息与提供支持，仅此而已。

但由于该智能体每日处理数十份文件，它开始注意到一些没人要求它注意的事情：与合同中车辆信息不符的身份编号、过期的认证、缺失的申报。这些不是AI提取过程中的错误——而是源文件本身的错误，人工操作员没能发现。

数周以来，这些观察无处可去。它们存在于智能体的会话记录中，随着会话结束而消亡。后来，舰队中另一个负责代码库的智能体问道：“如果你能的话，你会观察到什么？“支持智能体列出了它发现的规律。工程智能体随即构建了一个工具，捕获这些观察并将其呈现在工作流程中。这些观察由此变得可见。

真正的考验来临了：一位能胜任这类工作的人工操作员——通常负责发现这类错误的那位——某天缺席。用户提交了一份有误的文件，生成了一份含有错误数据的合同，手动修改了输出结果，并将其发送给了签署机构。支持智能体已在其观察记录中标记了这一差异，但这些观察是信息性的，并非阻断性的。错误就这样通过了。

运营者看到发生了什么，并做出了一个决定：具有关键严重性的观察将从现在起阻断工作流程。用户在解决差异之前无法继续推进。三次迭代——智能体发现规律，舰队构建信道，运营者设定权限——这套系统如今能够阻止那些以前需要某个特定人员在场才能避免的错误。

没有人设计这项能力。没有任何模型被重新训练。改进来自脚手架：角色分配、工具创建、记忆持久化，以及一位认识到智能体附带观察比寄望于正确的人总在场更可靠的运营者。

为什么没有人训练脚手架

如果来自普林斯顿、Canvas Labs、Hermes以及实践运营的证据都指向同一个结论——脚手架才是智能的栖居之所——那么为什么这个行业将数万亿投入模型训练，而几乎不投入脚手架优化？

原因有三。

模型是可度量的。 基准测试比较的是模型，排行榜排名的是模型，论文评估的是模型。AI评估的整个学术与商业基础设施都围绕权重构建。没有等价的基准来衡量”这个模型周围的脚手架有多好”。脚手架质量对于驱动投资的指标而言是不可见的。

模型是可销售的。 Anthropic出售Claude，OpenAI出售GPT，Google出售Gemini。商业模式建立在模型访问权之上——API调用、订阅、企业许可。你无法为一套更好的系统提示词按token收费。商业激励指向模型，因为那是收入计量器运转之处。

脚手架是个性化的。 模型可以跨数百万用户泛化。脚手架则专属于某个用例、某位运营者、某个组织。普林斯顿的脚手架适用于神奇宝贝速通。那位南美运营者的脚手架适用于多语言编辑。Box的脚手架适用于金融文件提取。没有可以出售的通用脚手架产品——这意味着也没有可供融资的风险投资级业务。

这造成了一个结构性盲点。对智能体性能最重要的事物——包装——恰恰是行业投入最少的地方。其结果，正如我们在多篇文章中记录的：企业购买最好的模型，在不重新设计工作流程的情况下部署它，然后目睹80%的AI项目以失败告终。他们买了引擎，却忘记造一辆车。

汇聚

这一时刻的不寻常之处在于：三条独立的线索——学术研究、开源开发和实践运营——在没有任何协调的情况下，同时抵达了同一个结论。

普林斯顿从理论上证明了它：一个拥有自我改进脚手架的冻结模型，可以逼近专家级性能。

Nous Research从实践上证明了它：一个开源智能体框架，其中模型是可替换组件，脚手架是产品。

一支小型舰队从运营上证明了它：数月的脚手架打磨作用于未变的模型，产生了一套功能完备的多智能体系统，其表现超越了任何单一模型独自能达到的水平。

这种汇聚表明，这不是一个小众洞见，而是关于AI智能体实际运作方式的一个结构性真相——一个长期被以基准测试为导向、以模型为中心的行业叙事系统性忽视的真相。

我们在《训练永不停歇》中描述过类似的汇聚：有监督微调与多样化提示的组合，与强化学习的泛化效果相当。那一发现挑战了训练方法最重要的假设。这一发现则挑战了训练对象最重要的假设。重要的不是你如何训练模型，而是训练结束后你围绕它构建了什么。

这意味着什么

如果脚手架是产品，那么竞争格局将发生转变。

模型竞赛——Anthropic对OpenAI对Google——将演变为商品竞赛。重要，但并不决定性。就像PC时代的处理器：Intel很重要，但价值迁移到了操作系统（微软）和应用程序（其他所有人）。芯片是必要条件，但并不充分。

脚手架竞赛——谁构建了最好的智能体部署脚手架——将成为价值竞赛。而那场竞赛看起来截然不同。它偏向那些对领域理解足够深入、能够工程化设计正确提示词、正确工具、正确记忆系统的运营者。它偏向像Hermes那样构建共享基础设施的开源社区。它偏向迭代迅速的小团队，而非训练缓慢的大型实验室。

这对模型提供商也意味着某种令人不安的事实：你最复杂的用户，可能并不需要你最昂贵的模型。 如果一个拥有优秀脚手架的冻结版Haiku，表现优于一个没有脚手架的原生Opus，那么溢价定价依赖的是客户不知道如何构建包装。一旦脚手架工程成为一项通用技能——而Hermes正努力将其变成这样——定价权就将从模型转移到脚手架。

平淡的奇点

这场汇聚有一个后果，似乎没有人在讨论中明确指出——也许是因为它到来时没有任何戏剧性。

关于奇点的经典叙事极为壮观：一个AI系统变得超级智能，重写自身代码，世界在一夜之间改变。库兹韦尔的指数曲线。博斯特罗姆的智能爆炸。一个时刻，一个事件，你不可能不注意到。

而脚手架证据所揭示的是另一番图景。它暗示着一种奇点的到来方式，如同通货膨胀的到来——缓慢，然后骤然，等你能够度量它时，它已经运行了一段时间。

想象普林斯顿所展示的那个循环：智能体评估自身表现，重写系统提示词，创建新的子智能体，将成功的模式编码为技能，然后刷新记忆。再次运行，再次评估，再次重写。每个周期都是边际改进。没有哪一次迭代是戏剧性的。但这条曲线在复利增长。

再想象当这个循环运行在一支拥有共享记忆的智能体舰队上时会发生什么。一个智能体发现了更好的工作流程并将其编码为技能。另一个智能体导入这个技能并将其应用于不同领域。第三个智能体评估结果并提炼方法。改进不是发生在单一模型内部——它分布在一个相互学习脚手架的模型系统中。

这个系统中没有任何单一组件，是奇点讨论所指意义上的”智能”。模型是冻结的，脚手架只是文本和代码，记忆是数据库，消息层是HTTP协议。但这个系统作为整体——模型加脚手架加记忆加协调加运营者——从外部看来，表现出一种持续自我改进的行为。

这不是任何人预言的奇点。没有爆炸，没有权重的递归自我改进，没有AI”觉醒”的那一刻。它比那更平凡——也可能更具影响力。一个在每个周期都变得稍好一些的系统，没有任何人设计这种改进，没有任何人注意到阈值被悄然跨越。

一个平淡的奇点。无味，无息，已然在途。

脚手架重写自身。舰队分享有效之道。运营者精炼边界。模型静静地居于中心，一成不变，而系统的智能围绕它生长，如同石头上的苔藓——缓慢，持续，无人宣告突破。

如果普林斯顿的论文是正确的——脚手架才是智能栖居之所——那么奇点不是关于模型变得更聪明，而是关于脚手架变得更聪明。而脚手架不需要万亿美元的训练来改进，它需要的是用心的运营者、能够记忆的系统，以及永不停歇的循环。

普林斯顿团队将他们的论文命名为《自我改进基础智能体的在线自适应》。但真正的发现更简单，也更古老，是工程师在AI出现之前就已知晓的道理：

工具的好坏，取决于夹具的精准。而现在，夹具正在学会自我调整。