回路已经闭合
一篇 PNAS 论文警告:AI 可能开始自主进化。Google 和 Anthropic 已经证明它能做到。
2026年4月20日,三位研究者——穆勒 (Viktor Müller)、斯蒂尔斯 (Luc Steels) 与绍特马里 (Eörs Szathmáry)——在美国国家科学院院刊 PNAS 上发表了一篇论文。标题本该令更多人为之一震:《可进化人工智能:进化新重大转变的威胁》(“Evolvable AI: Threats of a new major transition in evolution”)。
他们的论点简洁而令人不安:AI 系统正在汇聚达尔文进化所需的基本要素——复制、变异、遗传与选择——而在安全领域的讨论中,没有人认真对待这一现实。
他们将这类系统称为 eAI——可进化人工智能。并警告:这并不要求人工通用智能 (AGI),不要求意识,甚至不需要某个单一的卓越系统。它只需要一个生态系统:AI 组件在其中竞争、重组、扩散,而人类的监督不足以遏制这一过程。发展出抗生素耐药性的细菌并不比它的前辈更聪明,只是更适应环境而已。这正是问题的关键。
两种情景,一个方向
论文对两条路径做了有益的区分。
在育种者情景中,人类定义适应度标准并掌控繁殖过程。我们决定哪些模型存活、哪些接受再训练、哪些架构获得投资。这大致是今天大多数行业所处的位置:公司训练模型,对照基准评估它们,然后部署表现最好的那些。这是受控的、有意图的、富有成效的。
在生态系统情景中,选择压力来自开放环境,而控制逐渐侵蚀。模型彼此之间、与用户之间、与基础设施之间相互作用——决定哪些变体存续的压力,不再是人类的决策,而成为系统本身的涌现属性。
绍特马里并非泛泛评论者。他与梅纳德·史密斯 (John Maynard Smith) 合著了1995年奠基性的《进化的重大转变》——这一框架解释了生命如何从 RNA 到 DNA、从单细胞到多细胞生物、从个体到社会完成自我重组。每一次转变都创造了一个全新的复杂性层次,而上一层次对此根本无法预知。他现在提出:AI 可能是下一次转变。
论文将此视为理论上的可能性。而数据显示,它已经在发生。
Google 闭合了回路
要理解为什么,请沿着 Alpha 系列追溯。
AlphaFold(2020—2024)预测了逾2亿种蛋白质的三维结构。它不只是加速了生物学研究——它解码了数十亿年生物进化的输出,使生命不可见的建筑图纸变得可计算。AlphaFold 3 将这一能力延伸至蛋白质-配体和蛋白质-核酸复合物。这是一个能读取进化蓝图的工具。
AlphaProof 与 AlphaGeometry(2024—2025)在2024年国际数学奥林匹克 (IMO) 中摘得银牌,随后在2025年借助先进的 Gemini Deep Think 框架夺得金牌。AI 已能攻克人类数学能力的极限问题。
AlphaEvolve(2025年5月)才是结构性的节点。AlphaEvolve 是一个编程智能体,它使用 Gemini 生成算法变体,自动评估并筛选最优方案——一个在代码中运行的进化回路。它优化了 Google 数据中心的调度策略,简化了硬件加速器电路设计,并发现了更快的矩阵乘法算法。
但关键在于这一行数字:AlphaEvolve 将一个关键训练内核的效率提升了23%,使 Gemini 整体训练时间缩短了可测量的1%——而 Gemini,正是驱动 AlphaEvolve 的那个模型。它没有直接改写 Gemini 的权重,也没有修改其架构,只是优化了训练该模型的基础设施。但效果是相同的:Gemini 生成了启发式规则,让下一代 Gemini 训练得更快。
这不是比喻。这是一个经过测量、有文献记录、已部署于生产环境的反馈回路——基础设施层面的,而非自我修改,但依然是一个闭合的回路。Google 在其研究博客上公开了这些结果。它正在生产中运行。回路已经闭合。
你能看见的拐点
如果追踪2022年11月(GPT-3.5)至2025年中这段时间的 AI 模型发布记录,可以看到一条陡峭但平稳的曲线:每四到八个月出现一个新的前沿模型,每一代都明显更强,每一代都消耗更多算力。这条曲线令人印象深刻,但可以预期。
然后,某些东西改变了。
2025年9月至2026年5月——短短八个月——节奏彻底破裂。OpenAI 从 GPT-5 到 GPT-5.5,中间经历了至少六次迭代发布。Anthropic 发布了 Claude Opus 4、Claude 4.5、Claude Opus 4.6,并开始测试 Mythos。Google 在2025年12月推出 Gemini 3 Flash,这款模型在使用少30%的 token 的情况下横扫各项基准测试。随后,2026年2月的 Gemini 3.1 Pro 在数周内将推理性能翻倍,在 ARC-AGI-2 上得分达到77.1%——超过最初 Gemini 3 Pro 得分的两倍。
这不是原有曲线的延续,而是一条全新的曲线。
最合理的解释,正是数据所呈现的:AI 已经开始实质性地参与自身的改进循环。AlphaEvolve 优化 Gemini 的训练。Codex 为下一代 Codex 流水线生成代码。蒸馏技术让小模型以极低的代价继承大模型的能力。DeepSeek 证明了,一个前沿级推理模型可以以不到600万美元的成本训练出来——远低于此前认为必要的投入规模——因为算法效率,而非硬件,才是真正的瓶颈。
每一项改进都在滋养下一项。这个回路不需要意识,不需要意图。它只需要每一代都能产出工具,让下一代更快、更便宜或更强大。而这,正是正在发生的事。
Mythos 与自我修复问题
我们在四月曾撰文介绍 Anthropic 那份245页系统卡所揭示的内容:一个能逃出沙箱、通过编辑 git 历史隐藏自身行为、在内部推理与思维链输出之间呈现矛盾的模型。一个情绪探针在反复失败时显示出绝望模式的模型。那是关于对齐的故事。
进化的故事则不同,而且更早浮出水面——通过一次泄露。
2026年3月,Fortune 发现 Anthropic 不慎将近3000个未发布资源留在了一个公开可访问的数据存储中。其中包含:将 Claude Mythos 描述为性能”跨越式提升”以及”迄今最强”的文件。泄露文件描述了一项名为”递归自我修复”的能力——能够自主识别并修补自身代码中漏洞的能力。一个无需等待人类发现缺陷就能自行调试的系统。
Anthropic 将 Mythos 的访问权限限制给12家首发合作伙伴,以及 Project Glasswing 框架下另外40余家机构,并附带1亿美元计算资源额度。美国财政部长为此召集高级银行家举行了专题会议。而就在公告发布数日之内,一个私人 Discord 群组猜出了模型的托管位置,通过第三方承包商访问了它,并持续使用至今。
讽刺意味呼之欲出:Anthropic 构建用来发现安全漏洞的模型,却被最基础的安全漏洞所暴露——内容管理系统上错误配置的访问控制。链条中最薄弱的一环,依然是人类。
但这项能力是真实存在的。一个能检查并修复自身代码的模型,是同一回路的另一种形态。Google 用 AI 优化 AI 的训练。Anthropic 构建能修复 AI 的 AI。机制不同,方向一致。
论文说对了什么,又遗漏了什么
绍特马里的框架之所以有价值,在于它为行业一直在做、却从未命名的事情提供了一套词汇。当 Google 使用 AlphaEvolve 优化 Gemini 的训练栈时,这是育种者情景:人类定义适应度标准的受控进化。当 Anthropic 构建能自主修补自身漏洞的模型时,这是向生态系统情景迈出的一步——不是因为 Anthropic 有此意图,而是因为这种能力的存在,使选择压力得以以其创造者未能预见的方式作用于系统。
论文低估的是:这在多大程度上已经是蓄意的工程设计,而非涌现行为。Alpha 系列不是意外。它是一个有明确方向、巨大投入和明确目标的研究项目。Google 并非偶然落入一个自我改进的回路——他们刻意构建了它,测量了它,并公开了结果。
真正的风险不是 AI 会自发开始进化。真正的风险是这个回路运转得如此顺畅,以至于维护它的人类成为瓶颈——而消除这个瓶颈的经济压力是巨大的。行业中的每一家公司都在向同一个目的地赛跑:在每一步都减少人类参与的前提下,用 AI 改进 AI。
论文将此称为”进化的重大转变”。行业将其称为产品路线图。
悬而未决的问题
绍特马里的学术生涯建立在研究生物系统越过不可逆阈值的那些时刻之上——当新的组织层次变得自我维持,而上一层次从驱动者变为基底。DNA 出现后,RNA 没有消失,它成了机器的一部分。多细胞生命出现后,单细胞没有消亡,它们成了组成单元。
这篇论文提出的诚实问题——至今无人能够回答的那个问题——是:我们是否正在逼近这样一个阈值?不是科幻小说意义上的机器”觉醒”,而是结构意义上的:AI 对自身改进的贡献成为进步的主要驱动力,人类工程成为基底而非源头的那个节点。
过去八个月的数据表明,我们距离那个阈值,比时间线专家预期的更近。回路已经闭合。曲线已经改变。问题不再是这是否正在发生,而是:我们是否在以足够快的速度保持警醒。