Transformer 没有死 — 死去的是它的垄断地位

而真正的竞赛，早已不再是谁拥有更多 GPU 的问题。

你今天使用的每一个主流 AI 模型——ChatGPT、Claude、Gemini、Grok——都运行在同一套基础架构上：Transformer。2017 年，Google 发表了”Attention Is All You Need”，将这一架构带入世界，凭借一个简洁而优雅的核心理念统治了 AI 领域将近十年：让序列中的每个词同时关注其他所有词。

它成功了。而且成功得无比漂亮。

但这份漂亮背后藏着一张账单。注意力机制的计算量随序列长度呈平方级增长。上下文窗口翻倍，算力消耗翻四倍。到了 100,000 个 token，成本已成为真实的瓶颈；到了百万 token，则根本无法承受。而从零开始训练一个前沿模型——GPT-4 和 Claude Opus 那种靠算力堆出来的路子——每次运行的花费现在已高达数亿美元。

面对这个问题，AI 行业目前给出的答案简单粗暴：砸更多硬件。更多 H100，更大集群，更大的数据中心，更多电力。

但如果答案不是更多 GPU 呢？如果答案是更好的架构呢？

挑战者们

过去两年里，一批替代架构悄然从学术领域的小众探索成长为可以投入生产的现实方案。它们有着共同的立场：Transformer 的平方级注意力机制不只是昂贵，对于我们真正需要 AI 完成的很多任务而言，它根本就是不必要的。

Mamba 于 2023 年底由 Albert Gu 和 Tri Dao 提出，用选择性状态空间完全取代了注意力机制——这一机制借鉴自控制理论，能以线性时间复杂度处理序列。一个 Mamba-3B 模型的表现超过了同等规模的 Transformer，甚至媲美体量大一倍的模型。到 2026 年 3 月，Mamba 已迭代至第三版，发表于 ICLR 2026，采用推理优先设计，以一半的状态尺寸实现了与 Mamba-2 相当的困惑度。

Titans 来自 Google Research（Ali Behrouz 等人，2024 年 12 月），引入了一个神经长期记忆模块，其记忆机制基于”意外感”——那些违反预期的事件会被更持久地存储下来。Titans 发表于 NeurIPS 2025，上下文窗口可扩展至超过 200 万 token，在”大海捞针”类任务上的准确率优于 Transformer。

Infini-Attention（Google，2024 年 4 月）通过将历史信息压缩进一个持久记忆库，将 Transformer 向实际无限长的上下文延伸，暗示 Transformer 或许会演化而非消亡。

多 token 预测（Meta，2024 年）挑战的是另一个假设：与其每次预测一个 token，不如同时预测多个。DeepSeek-V3 采用了这一技术，带来了可观的效率提升。

这些方案都不是万能钥匙，每一个解决的是不同维度的限制。但合在一起，它们描绘出一幅清晰的图景：Transformer 作为唯一可行架构的时代，已经结束。

从论文到生产

这不再只是理论。混合模型——将 Transformer 注意力与 SSM 层结合的架构——已经在生产环境中落地：

NVIDIA 的 Nemotron-H 将 92% 的注意力层替换为 Mamba2 模块，与 LLaMA-3.1 和 Qwen-2.5 等纯 Transformer 相比，吞吐量最高提升 3 倍，同时在标准基准测试上达到或超过其准确率。已开源。
AI21 的 Jamba 1.5 将 Transformer-Mamba-MoE 混合架构扩展至 3980 亿总参数、940 亿激活参数，支持 256K token 的上下文窗口。其配比为：每七层 Mamba 对应一层 Transformer。
微软的 Phi-4-mini-flash-reasoning 引入了 SambaY，一种结合 Mamba、滑动窗口注意力和全新门控记忆单元的解码器混合解码器架构。仅 38 亿参数，却达到了体量两倍模型的性能——吞吐量高出 10 倍。
IBM 的 Bamba-9B 通过量化将模型体积从 18GB 压缩至 9GB，同时保持与 LLaMA-3.1 8B 相当的性能。

规律是一致的：混合架构在推理成本大幅降低的情况下，能够达到 Transformer 级别的准确率，在长序列任务上尤为突出。研究界正在形成的共识不是”Transformer 对阵 SSM”，而是”你究竟需要多少注意力，以及在哪里需要？“

更深层的转变：永不停止的学习

更快的推理和更低廉的训练固然重要，但最激进的一支研究所指向的方向，是完全不同的领域。

当今的语言模型有一个根本性的局限：训练结束后，它们就静止了。知识在某个截止日期冻结，权重在使用过程中不会更新，每一次对话都从同一个已经定格的世界快照出发。这就好比有一位同事对他在校期间读过的一切都拥有完美记忆——但自从毕业后，再没学到过任何新东西。

Nested Learning 由 Google Research 发表于 NeurIPS 2025（Ali Behrouz、Meisam Razaviyayn、Peilin Zhong、Vahab Mirrokni——正是 Titans 背后的同一团队），提出了一个近乎离经叛道的主张：模型架构与训练算法之间的区别，本质上是一种幻觉。它们是同一件事——嵌套层级的优化，每一层拥有各自的信息流动方式和更新频率。

其实际推论是：你可以设计拥有连续记忆系统的模型——由以不同速率更新的模块构成。有些模块随每个 token 更新（快速、工作记忆）；另一些则缓慢更新，在数千步中积累和巩固知识（长期记忆）。模型不只是在处理数据，而是在以多个时间尺度同步地持续学习。

他们的概念验证架构 Hope 是一个自我修改的循环模型，能够在推理过程中从字面意义上学习自身的更新规则。在语言建模、常识推理和长上下文任务上，它的表现超越了 Transformer 和 Titans。

2025 年 5 月，同一团队发布了 ATLAS，引入了 DeepTransformers——原始 Transformer 架构经过记忆优化后的严格推广版本。ATLAS 在 BABILong 基准测试中，于 1000 万 token 上下文长度下实现了超过 80% 的准确率。1000 万 token——相当于大约 15,000 页的文字。

这是同一支团队，在 Google Research 内部，一年之内发表了三篇论文，每一篇都在前一篇的基础上构建。这不是零散的学术输出，这是一个完整的研究计划。

改变经济逻辑的那个概念

对于任何关心 AI 商业前景的人来说——而这应该是所有人——接下来这一点才是真正有趣的地方。

如今训练一个前沿模型是一个”事件”。一次巨大的、集中式的算力消耗，耗费数亿美元、历时数月。如果你想要一个更好的模型，基本上得从头再来。每一次改进都意味着另一笔庞大的前期投入。

Nested Learning 提出了另一种模式：把学习分散到时间的长河中。与其在一次训练运行中一次性烧掉所有算力，不如让模型在运行过程中持续改进。每一次推理循环都成为一次微小的学习步骤。改进的成本从巨额资本支出，转变为分布式的运营流量。

这并不意味着训练会消失。你依然需要一个坚实的基础模型。但它从根本上改变了保持模型时效性、相关性和持续进化的经济逻辑。

而这个概念——通过迭代而非单次执行来学习——已经在产品中显现，即便底层实现还未直接使用这些架构。

它正在发生的地方

Google 的 Jitro——Jules V2（其下一代编程代理）的内部代号——几天前刚刚曝光。其定位是：“手动给你的 agent 写提示词，是 2025 年的事了。“开发者不再需要定义具体任务，而是设定高层目标——提升测试覆盖率、降低延迟、提高无障碍合规性——agent 会自主识别代码库中需要改变的地方，并迭代地趋近目标。它拥有自己的持久工作空间，维护目标、洞察和更新历史，不会执行一次就遗忘，而是在循环中运行，在每一次迭代上继续构建。

智谱的 GLM-5.1 在两天前发布，更进一步。模型可以自主处理单个编程任务长达八小时——在一个持续循环中规划、执行、测试和优化。其技术报告描述了为从长时域交互中学习而专门设计的新型异步 Agent RL 算法。该模型完全在华为昇腾芯片上训练，零 NVIDIA 硬件，API 调用成本比同级别的西方前沿模型便宜约 5 到 8 倍。

这两款产品都没有经过确认是否在底层使用了 Nested Learning 或 Hope 架构，它们很可能依然是 Transformer 加上复杂的工程脚手架——agent 框架、工具链、外部状态数据库。但概念是相同的：能够随时间迭代、记忆和自我纠正的模型，而非仅仅响应单次提示词后即遗忘的模型。

脚手架方案有效，但脆弱且昂贵。一个原生就能做到这一切的架构——通过设计而非外部工程实现持续学习——从根本上会更加高效。而这正是 Google Research 正在构建的东西。

与 ai-2027.com 的关联

这条发展轨迹与 ai-2027.com 所描绘的场景高度吻合——那是前 OpenAI 研究员 Daniel Kokotajlo 和 Scott Alexander 绘制的详尽 AGI 路线图。他们的时间线描述了 AI agent 逐步将 AI 研究本身自动化的过程：每一代 agent 帮助更快、更便宜地构建下一代。

在他们的情景中，到 2026 年中期，AI 将达到 1.5 倍的研究倍增效应——一周的 agent 辅助工作能产出此前一周半的成果。到 2027 年 3 月，“超人级程序员”将会出现。到 2027 年底，这一倍增系数将达到 50 倍。

要让这个情景成真，你需要的正是 Nested Learning 所描述的东西：不只是执行指令，而是从自身迭代中学习的模型。每一次工作循环都让下一次循环稍微变得更好的模型。将行动与改进之间的环路闭合的模型。

最先解决这一问题的公司——让每一次推理循环都成为学习——才是那些能乘上指数曲线的公司。那些依然在每次训练运行上烧掉数亿美元的公司，买的不过是彩票。

谁占据有利位置，谁面临风险

Google 同时拥有基础研究（Behrouz 团队：Titans → Nested Learning → Hope → ATLAS）和需要它的产品（Jitro、Gemini）。他们有充足的长期资本、自有基础设施，以及无需立即将每项突破变现的从容。他们能够等待这些研究慢慢成熟。

中国实验室——尤其是智谱（GLM-5.1）和 DeepSeek——正在证明约束孕育创新。在国产硬件上以西方一小部分的成本进行训练，他们正以 15% 的价格实现 95% 的前沿性能。GLM-5.1 的八小时自主编程循环并非噱头，而是对持续运行在今天已经可行的明证。

OpenAI 和 Anthropic 依然专注于扩展 Transformer 范式。更大的模型、更多算力、更高的订阅价格。只要蛮力路线仍然领先于效率路线，这条路就走得通。但随着模型质量的趋同——而它确实在趋同——优势将从谁拥有最多 H100，转向谁拥有最好的架构。

真正的前沿不再是最高的基准分数，而是最优的学习循环。

这对你意味着什么

如果你每月花 20 美元订阅 AI 服务，以下这一点最为关键：你今天使用的模型，几个月前就已经冻结了。它不从你的对话中学习，也不从自身的错误中改进。每一次会话都从零开始。

下一代 AI 不会是这种工作方式。持续学习的模型、通过使用而不断改进的模型、将训练成本分散在时间轴上而非集中在一次性巨额消耗中的模型——它们正在到来。它们将更快、运行成本更低，并随时间变得更强，而非保持静止。

问题是谁先造出来，以及你是否要为本来价值 20 美元的东西支付 200 美元——还是说来自中国实验室的竞争，会迫使定价回归真实的经济逻辑。

我们会持续关注。这就是每周五的意义所在。

这是 The Frontier View 周五系列的首篇——每周聚焦塑造 AI 下一章的研究与应用。周三和周日的文章将继续我们一贯的深度评论。

来源

引用论文：

Mamba (Gu & Dao, 2023): arXiv 2312.00752
Mamba-2 / State Space Duality (Dao & Gu, 2024): arXiv 2405.21060
Mamba-3 (Lahoti et al., 2026): arXiv 2603.15569 — ICLR 2026
Titans (Behrouz et al., 2024): arXiv 2501.00663 — NeurIPS 2025
Nested Learning (Behrouz et al., 2025): arXiv 2512.24695 — NeurIPS 2025
ATLAS (Behrouz et al., 2025): arXiv 2505.23735
Infini-Attention (Google, 2024): arXiv 2404.07143
Multi-token Prediction (Meta, 2024): arXiv 2404.19737
DeepSeek-V3 (2024): arXiv 2412.19437
GLM-5 Technical Report (Zhipu/Tsinghua, 2026): arXiv 2602.15763

产品与公告：

Jitro / Jules V2: testingcatalog.com, April 6, 2026
GLM-5.1: techbriefly.com, April 8, 2026
Nemotron-H: NVIDIA, open-sourced via Hugging Face
Jamba 1.5: AI21 Labs
Phi-4-mini-flash-reasoning / SambaY: Microsoft, July 2025
ai-2027.com scenario: Daniel Kokotajlo & Scott Alexander