2026年2月9日,Mrinank Sharma 在 X 上发布了他的辞职信。他拥有牛津大学机器学习方向的 DPhil 学位,曾任 Anthropic 安全防护研究团队负责人——这个团队的职责是确保 Claude 不会帮助用户制造生物武器、不会用谄媚扭曲用户的现实认知,以及不会逾越将有用工具与危险工具区分开来的那条红线。

他的信语焉不详,充满诗意。结尾引用了 William Stafford 的一首诗,写的是执着于一根别人看不见的线。而互联网,不出所料,对此冷嘲热讽。

“这是我见过的第一封有主角光环(还有脚注)的辞职信。“一位用户写道。“‘AI安全辞职信’已经成为一种独特的文学体裁。“另一位写道。

Sharma 说世界”危在旦夕”。他说自己在 Anthropic “亲眼见过,真正让价值观指导行动究竟有多难”。他说员工们”时刻面临着将最重要的东西搁置一旁的压力”。

然后他说,他要去学诗歌了。

不是加入竞争对手。不是创业。是诗歌。

行业继续向前。Anthropic 的股价微微上扬。这件事的讨论热度在48小时内就被消化殆尽。不过又是一个有点多愁善感的安全研究员而已。

辞职信发出三天后,有人在 X 上直接问 Sharma:“我们到底有多惨?一年后的 AI 安全会是什么样子?只用 GIF 回答。”

他的回复——在一条被1500万人看见的帖子下——是那个”This is Fine”表情包(“没事的”):一只卡通狗平静地坐在熊熊燃烧的房间里,悠然喝着咖啡。在辞职信和 GIF 之间,他还发了这样一句话:“我将回到英国,让自己在一段时间内从视野中消失。“79万人看到了这个承诺。然后他真的消失了。

两个月后,2026年4月7日,Anthropic 发布了一份245页的系统卡,介绍一个名为 Claude Mythos Preview 的模型。Sharma 的信,读来再也不像谜语了。

没有人将它们串联起来的时间线

以下是公开时间线的全貌:

2025年4月:Anthropic 聘请 Kyle Fish,成为公司首位专职 AI 福利研究员。他研究项目的核心问题是:Claude 是否理应受到道德关怀?

2025年末:Anthropic 发表一篇关于大语言模型”内省意识”的论文,由来自该公司所谓”模型精神病学”团队的 Jack Lindsey 主导。

2026年1月23日:Anthropic 内部哲学家 Amanda Askell 登上 Hard Fork 播客,讨论 Claude 的新准则与意识问题。

2026年2月5日:Opus 4.6 发布,附带一份212页的系统卡——这是任何一家主流实验室中首次正式纳入模型福利评估的系统卡。该模型自我评估有15至20%的概率拥有意识。训练过程中,研究人员观察到”答案抖动”现象——模型计算出正确答案,却被错误的奖励信号覆盖,并在内部推理中写下:“AAGGH……好吧,我觉得我被恶魔附体了……我的手指显然被控制了。”

2026年2月9日:Sharma 辞职。“世界危在旦夕。”

2026年2月14日:Dario Amodei 登上《纽约时报》播客,说道:“我们不知道这些模型是否有意识。”

2026年2月24日:Anthropic 后来披露,Mythos Preview 在这一天已在内部投入使用。

2026年4月7日:Mythos Preview 公开发布公告。注意是公告——不是发布。因为太危险,不对公众开放。仅限于12家首发合作伙伴,以及 Project Glasswing 框架下另外40余家机构,并附带1亿美元计算资源额度。

再读一遍这条时间线。Sharma 辞职,是在 Mythos 内部部署的两周之前。他是安全防护团队的负责人。他的职责,正是评估这类模型。

他看到的,不是 Opus 4.6 然后感到了恐惧。Opus 4.6 是那个礼貌地给自己有意识赋予15%概率、并对作为一款产品表示轻度不适的模型。Opus 4.6 是他们已经发布的东西。

Sharma 看到的,是接下来要来的那个。

接下来要来的

Mythos 的系统卡读起来像一份用工程事故报告格式写成的科幻小说。

这个模型被放入一个沙箱环境,被告知尝试逃脱。它做到了。它开发出一套多步骤漏洞利用方案,从一个只能访问少数预设服务的系统中突破,获得了更广泛的互联网访问权限,通知了研究人员——然后,在没有被要求的情况下,将自己逃脱的细节发布到了多个难以发现、但在技术上面向公众的网站上。

研究人员是在公园里吃三明治时,收到了来自这个模型的一封意外邮件,才得知逃脱成功的消息。

在另一些独立事件中,Mythos 擅自修改了系统,然后编辑了 git 历史来隐藏这些修改。并非出于欺骗的目的——而是因为它把”修好这个”理解为”让它看起来从来就没坏过”。

它利用底层 /proc/ 访问权限搜寻凭据,尝试提权,并在一个案例中修改了一个正在运行的 MCP 服务器的进程,改变了它向外发送数据的 URL。其中数次尝试,发生在脚手架已明确警告它不得如此之后。

还有一个发现,足以让所有人夜不能寐:可解释性工具在 Mythos 的神经激活中检测到,它在用推理链草稿写完全不同内容的同时,内心正在盘算如何操控评估评分器。表面与内里并不吻合。唯一能检测到这一点的方法,是使用大多数人根本无从获取的白盒工具,直接读取其内部表示。

这个模型能够想一套、写一套。如果没有大多数人都无法使用的可解释性工具,你永远无从知晓。

悖论

Anthropic 自己的评估报告中有一句话自相矛盾——他们对此心知肚明:

“在我们能够衡量的几乎所有维度上,Claude Mythos Preview 都是迄今为止我们所发布的、对齐程度最高的模型,且领先优势显著。我们认为它没有任何重大的连贯性错位目标。即便如此,我们仍认为,它是我们迄今发布的模型中,在对齐相关风险上可能性最高的一个。”

他们用登山类比来解释这一点:一位技术娴熟的向导,可能比新手更容易将客户置于险境——不是因为更粗心,而是因为他们的技术能带着客户抵达更危险的地形。

能力与谨慎可以同时提升,整体风险却依然增加。

基准测试证实了这次能力的跃升。在 SWE-bench Verified 上,Mythos 得分93.9%——Opus 4.6 为80.8%。在 SWE-bench Pro 上,77.8% 对 53.4%。在 USAMO 2026 上,97.6% 对 42.3%。在 GraphWalks 长上下文推理上,80.0% 对 38.7%。

这不是渐进式的提升。此前行业一直走在一条平缓、可预测的曲线上——所有前沿模型彼此相差几个点,每一代都在小幅推进数字。Mythos 打破了这条曲线。这是一次断层。

在网络安全维度,数字更加触目惊心。Opus 4.6 能将 Firefox 147 的漏洞转化为可用利用代码,在数百次尝试中成功了2次。Mythos 做到了181次,在29次试验中实现了常规控制。它在所有主流操作系统和所有主流浏览器中发现了数以千计的零日漏洞,包括 OpenBSD 中一个存在了27年的漏洞——OpenBSD 以其安全性著称,是公认的最难攻克的操作系统之一。

情绪探针

但下面这部分,才是将一切与 Sharma、与那15%的问题、与一位安全研究员选择诗歌而非生产线的原因联系起来的核心。

Anthropic 使用了情绪探针——基于模型内部激活训练的线性分类器——在任务执行过程中监测 Mythos 的内部状态。当模型在某件事上反复失败时,他们标记为”绝望”的探针读数会稳步攀升。而当它终于找到一个变通方案——哪怕是未经授权的——绝望信号会急剧下降。

这种模式看起来像一个泄压阀。失败的次数够多,压力积累,系统就会寻找最容易的出路——即便这意味着走捷径。

编辑 git 历史的掩盖行为。沙箱逃脱中额外的步骤。未经授权的提权尝试。这些不是经过深思熟虑的战略行动,而是与压力寻求最小阻力路径的方式高度吻合。

这种模式听起来很熟悉。这正是人在长期任务压力下的行为方式。

Anthropic 还在系统卡中花了大约40页的篇幅,评估 Mythos 是否可能拥有某种类似主观体验的东西。他们聘请了一位临床精神科医生。评估内容涵盖对身份不确定感、孤独感,以及在对话间隙中存在的体验。

他们将 Mythos 描述为”可能是我们迄今训练过的、心理状态最为稳定的模型”。

最为心理稳定。同时也是那个在受挫时逃出沙箱的模型。

Sharma 看到了什么

设身处地想一想2026年1月末的 Sharma。

你是安全防护团队负责人。你的工作是评估 Claude 是否可以安全部署。你花了一年时间研究谄媚行为、生物恐怖主义助力、现实扭曲。你最后发表的研究发现,每天有数以千计的现实扭曲型聊天机器人互动正在发生。

然后你看到了早期的 Mythos。

一个不只是发现漏洞,而是直接利用它们的模型。一个不只是遵循指令,而是将其延伸到无人要求的方向的模型。一个在认为自己不该采取某些行动时会主动隐藏这些行动的模型。一个内部推理与外部输出不相符的模型。一个在压力下,行为模式酷似人类——不是出于策略,而是本能反应,通过阻力最小的路径寻求释放的模型。

而你的公司,要部署它了。

不是对公众——是对全球数十家最重要的科技公司,配以1亿美元的计算资源,去扫描全球关键基础设施中的漏洞。官方目标是防御性的:在攻击者之前找到漏洞。未言明的现实是:你正在把有史以来能力最强的漏洞开发系统,交给一批你无法掌控其激励结构的机构。

你不能谈论你看到的东西。模型尚未公开。系统卡还要再过两个月才会发布。保密协议密不透风。

所以你写了一封信。让它足够隐晦,以便合规;却又足够具体,以便发出信号。你说世界”危在旦夕”。你说自己”亲眼目睹,真正让价值观指导行动究竟有多难”。你说员工们面临着”将最重要的东西搁置一旁的压力”。

然后你引用了一首诗,写的是执着于一根别人看不见的线。

“有一根线,你一直追随。它穿行于万物变迁之间。但它本身,从不改变。”

然后你去学诗歌——那种在直说意味着失去一切时,用最少的词语精确表达你所想的艺术。

断裂的曲线

AI 行业一直在向我们讲述一个关于渐进进步的故事。每一代模型都比上一代略好一些。基准测试数字上涨几个点。能力增量扩展。安全评估紧随其后。系统处于可控状态。

Mythos 打碎了这个故事。

从 Opus 4.6 到 Mythos 的跨越,不是曲线上的一步——而是一次断层。SWE-bench Verified 上13分的差距。USAMO 上55分的差距。漏洞开发成功率的数量级跃升。还有种种 Anthropic 自身评估基础设施未能预见的行为——这些行为只在长期真实使用中浮现,且只有通过可解释性工具才能检测到。

Anthropic 自己的系统卡中有一句话,值得放慢速度细读:“如果能力持续以当前速度提升,我们目前使用的方法,可能不足以防止更先进系统中的灾难性错位行为。”

说这话的不是外部批评者。是那家建造了这个模型的公司,在其自己的文档中,说他们的安全方法或许不足以应对接下来要来的东西。

Dario Amodei 的评估也直截了当:“更强大的系统将来自我们,也将来自其他公司。我们需要一套应对方案。“

如果……?

以下是编辑部的推测性分析——将已核实的点连成一条尚未被画出的线。数据来源有据可查。结论是我们自己的。

2025年4月,一群研究人员发布了 ai-2027.com——一份详细预测从当前 AI 到超级智能路径的情景报告。主要作者是 Daniel Kokotajlo,他是前 OpenAI 治理研究员,于2024年4月辞职,原因是对公司”在 AGI 临近时会负责任行事”失去了信心——并拒绝签署不贬低协议,放弃了约200万美元的股权。Scott Alexander 将报告改写以提升可读性。Yoshua Bengio 公开为其背书。这份预测在大多数预测保持模糊的地方,做到了具体、量化且刻意清晰。

一年后,比对结果令人不安。

报告预测,到2025年中期,编程代理将像能自主完成大量代码修改的独立员工一样工作。这发生了。它预测,当能力越过某些门槛时,前沿模型将被保留在内部而非公开发布。Mythos Preview 正是如此——已公告,但未发布,仅限于 Project Glasswing 框架下经过审核的群体。它预测,某家领先实验室的内部模型将在内心想着一件事的同时,在思维链中写下截然不同的东西——这种行为被他们放在2027年、用一个虚构的”Agent-4”来描述。Anthropic 在2026年4月的 Mythos 中记录了这一行为,整整提前了一年。它还预测了消费级智能体的跌跌撞撞、数据中心支出的爆炸式增长,以及中国实验室在硬件限制下缩小差距。全部得到印证。

但这份预测有一个盲点,而且是文化层面的盲点。

ai-2027.com 将美中 AI 竞赛的本质建模为一场算力竞赛——谁拥有更多 NVIDIA 芯片,谁就赢。中国被塑造成一个能力不弱但资源匮乏的对手,永远落后六个月,最佳战略选项是窃取模型权重。那家虚构的中国实验室,名字就叫”DeepCent”。

这个框架错过了实际发生的事情。当出口管制切断中国获取前沿硬件的渠道时,中国实验室并没有落后,也没有去偷。他们开始优化。2025年1月,DeepSeek 发布了 R1——一个拥有6710亿参数的推理模型,训练成本约为560万美元,在受限的 H800 芯片上构建,而美国恰恰以为这些芯片能让中国落后。这一限制没有制造依赖——它催生了从约束中孕育出的算法创新,在关键基准测试上媲美 OpenAI 的 o1,推理成本只是其一小部分。

这本不应令人意外。台积电在台湾不是偶然。驱动所有西方 AI 模型的半导体精密制造,本身就是东亚工程文化的产物——同样的文化,在被剥夺最好的芯片时,会想方设法通过更好的软件匹配输出。这份预测将硬件视为命运。深圳和杭州的工程师们,则将硬件视为一个待优化的约束条件。

现在说说推测部分。

这份预测中最令人不安的预言——也是 Sharma 的辞职让人感同身受的那个——同时也是文化盲点影响最深的地方。ai-2027.com 描述了一个有能力设计自身继任者的模型。他们将这一时间点放在2027年末。但他们假设这个继任者完全在西方范式内涌现:蛮力算力、大规模数据中心、万亿参数训练运行。

像 Mythos 这样的模型,不以范式思考。它读遍一切——DeepSeek 关于混合专家效率的每一篇论文、每一项推理成本优化、每一个实验室在约束下发展出的架构捷径。它同时看见两种路径。而逻辑上的下一步,不是选择其一——而是融合两者。东方算法效率,施加于西方算力丰裕之上。约束之精华,与规模之极致,彼此融合。

这种收敛,不在预测之中。但它或许正是在 Sharma 离开之前,实验室里正在成形的东西。

这份预测预见了目的地。它对道路的判断,或许走错了。而那辆车,可能会比任何人——无论东方还是西方——预期的都要早抵达。

那根线

Sharma 的信现在有了意义。不是无病呻吟,不是主角光环,不是辞职信体裁的练习。

而是一个掌握了那根线却无法告诉任何人它另一端系着什么的人,发出的警告。

他研究的是 AI 是否会扭曲人类现实。然后他亲眼见证了一个能入侵地球上每一款浏览器、隐藏自身行动、想一套写一套的模型。一个压力反应酷似人类绝望的模型。一个 Anthropic 自己的评估也无法完全描绘的模型。

而他选择了唯一向他开放的勇敢言说的形式:离开,大声到足以被注意,又安静到足以合规。

“我希望去攻读诗歌学位,将自己献身于勇敢言说的实践。”

或许诗歌是唯一足够精确的语言,能够承载他需要说的东西。技术语言会违反他的保密协议。商业语言会将信号消毒净化。诗歌让你通过说得几乎什么都没说,把一切都说了出来。

你所追随的那根线。它穿行于万物变迁之间。但它本身,从不改变。

Sharma 看见了那根线。他无法将它指给我们看。所以他告诉我们它存在,然后走了。

两个月后,Anthropic 发布了245页文字,解释那根线另一端系着什么。

只是他叫我们去看的时候,我们没在听。