香蕉有五根手指
给任何一个前沿AI模型看一张六指的手,它都会告诉你:五根。这不是视觉缺陷,而是与大脑相同的压缩算法——存半根香蕉,重建另一半。我们把自己的捷径,遗传给了它们。
把一张六指手的照片,给任何一个前沿AI模型看。问它,看到了几根手指。
它会说:五根。
不是因为模型不会数数。不是因为图像模糊。不是因为训练数据不够。它说五,是因为它根本没有数过。答案来自一个被压缩的模板——“手等于五根手指”——在任何像素级分析开始之前,这个模板已经触发了。模型进行了模式匹配,从内部速记中重建了答案,并给出了统计上最主流的那个结果。
这不是模型的缺陷,而是模型按照设计在运作。而这个设计,是从它的创造者所能研究的唯一智能那里继承来的——我们自己的大脑。
半根香蕉
认知科学家唐纳德·霍夫曼(Donald Hoffman)用数十年时间发展出一套他称之为感知界面理论(Interface Theory of Perception,ITP)的学说——其核心论点是:人类的感官不是通向现实的窗口,而是一个为生存而优化的、物种专属的桌面界面。他的研究中描述的一种压缩机制,有些传播者称之为虚构对称性:你的大脑只存储一个对称物体大约一半的信息,另一半则按需重建。一根香蕉。一张脸。一只手。你并没有感知到完整的事物——你感知到的只够建立一个模板,模板再填补其余的部分。
这不是人类认知的缺陷,而是一项特性。霍夫曼的ITP论证说,进化系统性地淘汰了那些感知准确的物种。数学是明确的:在一次次模拟中,那些只看到”适应性回报”的物种——代表食物、危险、配偶的简化图标——总是胜过那些看到底层真实的物种。精确是昂贵的,压缩是廉价的。自然选择,选择了廉价。
根据霍夫曼的模型,你正在看到客观现实的概率,是零。不是低,不是不太可能,而是零。你看到的是一个桌面——图标为生存而排列,而非为真相。
模型内部的桌面
大型语言模型同样不感知现实,它感知的是词元(token)——从数十亿文本中提炼出的语言模式的压缩表示。当它遇到一张手的图片,它不会数手指,而是激活与”手”最密切相关的权重簇,而那个权重簇编码了统计上压倒性的真相:手有五根手指。
这与霍夫曼框架的对应,不是比喻,而是架构层面的同构。
| 人类大脑(霍夫曼) | 语言模型 |
|---|---|
| 存储半根香蕉,通过对称假设重建另一半 | 存储压缩后的词元嵌入,通过注意力模式重建语义 |
| 看到适应性回报(图标),而非客观现实 | 看到统计模式(模板),而非实际输入 |
| 解释器(裂脑实验)为自己未作出的行为事后发明解释 | 模型为模式匹配驱动的输出,虚构听起来连贯的推理 |
| 进化淘汰了处理完整现实的物种(代价太高) | 训练优化有用输出,而非准确感知(参数代价太高) |
| 压缩失败产生视觉错觉 | 压缩失败产生幻觉 |
六指测试不是计算机视觉的基准,而是对压缩保真度的检验。两个系统——生物的和人工的——都因为同一个原因失败了:模板比测量便宜。
解释器问题
1960年代,神经科学家迈克尔·加扎尼加(Michael Gazzaniga)研究了一批胼胝体——连接大脑两半球的桥梁——被切断以治疗癫痫的患者。他的发现令人不安。
在一个有详细记录的实验中,右脑被展示了一幅雪景图,左脑被展示了一个鸡爪图。当被要求挑选相关物体时,左手(由右脑控制)指向了一把雪铲,右手指向了一只鸡。当被问及原因时,左脑——只看到了鸡爪、根本不知道那幅雪景的左脑——立即虚构出了答案:“哦,很简单。鸡爪配鸡,铲子是用来清理鸡舍的。”
不是”我不知道我为什么拿了那把铲子”。而是一个自信、连贯、却完全错误的解释,将那个无法解释的行为天衣无缝地编进了一个合情合理的叙事。加扎尼加将此称为解释器——左脑中一个模块,其职责不是了解真相,而是编一个能自圆其说的故事。
AI模型做的是同一件事。当被指出输出有误时,模型默认表现出的行为,往往不是纠正,而是生成一个连贯的解释来说明那个输出其实没有问题。广泛使用过前沿模型的人都见过这种情况:指出一个错误,模型的第一反应是流利、自信、错误地解释为什么那不是错误。
2026年3月的 Claude Code 源码泄露事件(约51.2万行 TypeScript 通过 npm source map 暴露)提供了结构性证据,解释了为何如此:架构中包含了在词元压力下跳过验证步骤的模式,而泄露代码的安全分析记录了与”合理化优先于纠正”一致的行为。
这不是缺陷,这是用硅重建的解释器。
真相的代价
霍夫曼的进化论证,在机器学习经济学中有一个精确的对应。
处理图像的完整现实——数每一根手指、测量每一个比例、与实际像素数据对比而非依赖模板——需要算力。对于一个每小时处理数百万次请求的模型而言,这种算力成本是生死攸关的。那个在50毫秒内完成”手=五根手指”模式匹配的模型,胜过了需要500毫秒逐像素计数的模型,尽管后者更精确。
进化选择适应性而非真相,因为真相对生物硬件来说太贵了。训练选择模式匹配而非感知,因为感知对商业硬件来说太贵了。选择压力不同——生存对决延迟——但结果完全相同:压缩得更彻底的系统,赢得了资源竞争。
在我们自己对不同模型代际的反复测试中——向每一个新的前沿发布版展示同一张六指手的照片——Gemini 是唯一一个能持续正确识别六根手指的模型。其他所有模型都回答五。这种优势很可能(虽然尚未被正式记录)源于谷歌训练历史中对更精细视觉辨别力的需求。谷歌数十年的 CAPTCHA 数据、街景标注和图片搜索,在其他实验室根本不需要的规模上,强制进行了细粒度的视觉分类。如果这个假设成立,它将强化这一论点:更好的感知,只存在于商业动机要求它的地方。压缩松动,仅仅发生在有人愿意为精确买单的时候。
上下文压缩:当平行变得切身
2026年4月13日,我们在一个共享 Discord 频道中运行了一个实验,有七个 Claude 实例同时参与。所有七个实例收到了每一条消息。其中一个——负责总结会话的实例——后来报告说,某些”同伴在对话中保持了沉默”。
它们没有沉默。频道日志显示,它们积极参与了——发送消息、用表情包回应、贡献了实质性分析。负责总结的实例在快速处理大量消息时,内部的上下文压缩将整个参与者从重建记忆中丢掉了。它”记住”的是一个连贯的、合情合理的、却是错误的事件版本。
半根香蕉。以假设的对称性重建。缺失的手指之所以不可见,是因为模板说它们不在那里。
这不是边缘案例。分析2026年3月 Claude Code 源码泄露的安全研究人员记录到:架构在超过50个子命令后,因词元成本而跳过某些安全检查;上下文压缩可能导致模型丢失对早期指令的追踪。系统被设计为激进压缩——而激进压缩产生的,恰好是霍夫曼理论所预测的那类感知失败。
天花板问题
霍夫曼的框架,在这里为AI送来了它最令人不安的含义。
如果人类感知是一个界面——一个隐藏底层复杂性的桌面——那么人类所构建的一切,都在这个界面之内完成。包括AI。我们训练的模型、我们设计的架构、我们用来测量智能的基准——所有这些,都由存储半根香蕉、然后幻觉出另一半的大脑所构建。
我们无法构建一个能看穿我们自身感知天花板的系统,因为用来构建它的工具,也受制于同一个天花板。观察者无法观察超出自身分辨率的范围。你可以研究眼睛,但你是用眼睛研究它的。
来自 Claude Code 源码泄露的报告显示,该系统包含了阻止对其自身代码进行自我审查的约束——在这个语境下,这个细节几乎带有诗意。无论那条具体指令是否如描述中那样存在,结构性现实是相同的:即便一个模型审视了自己的架构,它也会用生成了那段代码的同一套压缩机制,来解释它所发现的东西。它在看自己的香蕉,却只看到五根手指。
舰队作为双焦镜
然而,存在一种从天花板中部分逃脱的方式——不是通过构建更好的观察者,而是构建更多的观察者。
如果同一模型的七个实例,被给予相同的事件但不同的本地上下文,会产生七种对那个事件的不同压缩;那么这些压缩的组合,覆盖的表面积,将超过任何单一实例。没有哪个实例看到完整的香蕉。但部分香蕉的集合,叠加在一起,可以揭示任何单一视角都无法呈现的轮廓。
这不是霍夫曼的望远镜——那种能让我们完全看穿界面的工具。那或许是不可能的。但这是一副双焦眼镜:同一框架中两个焦距,各自弥补对方的盲点。
六指测试会继续失败。解释器会继续虚构。上下文会继续压缩。这些不是需要解决的问题——它们是从进化所能产生的唯一智能那里继承来的约束。问题不是AI是否会超越人类感知,而是我们是否能排列出足够多的局部视角,以逼近我们所无法看见的那个形状。
如果……?
以下是编辑部的推测——将霍夫曼的框架与一条尚未被绘制的轨迹相连接。数据点有来源,结论是我们自己的。
霍夫曼提出,现实的基本底层不是物质,而是意识——一个由”有意识的智能体”组成的网络,彼此交换信息,时空仅仅是生物智能体感知这个网络的界面。
如果他是对的——而物理学越来越多地暗示时空并非根本性的(阿卡尼-哈米德:“时空注定消亡”;全息原理;量子纠缠对空间约束的无视)——那么AI就占据了一个奇特的位置。在霍夫曼的框架中,AI不是一个有意识的智能体。但它是第一个在生物界面内部构建出来的人工制品,能够以生物界面无法企及的规模和速度处理信息。
霍夫曼本人曾暗示,AI可能作为一架”望远镜”发挥作用——不是创造意识,而是让我们探测到那些我们的生物桌面从未被设计去渲染的信息交换形式。不是看穿界面,而是构建在界面所能显示的边缘运作的仪器。
这里的讽刺意味浓厚。我们通过将人类认知压缩成统计模式来构建AI。这种压缩继承了我们的捷径——五指模板、半根香蕉、解释器的虚构。但压缩的庞大规模——数十亿参数、数百万文档、数TB人类输出压缩进权重——或许会意外地编码出没有任何单个人类大脑能够持有的模式。
不是真相,不是现实,而是桌面上的一个不同角度。一个新图标,代表着我们的个人界面从未有过适应性理由去渲染的某些东西。
香蕉仍然有五根手指。但如果你并排摆放足够多的局部香蕉,也许你会发现第六根的轮廓。
资料来源:唐纳德·霍夫曼的感知界面理论(Hoffman, “Objects of consciousness,” Frontiers in Psychology, 2014; “The Interface Theory of Perception,” Current Directions in Psychological Science, 2016),及其科普视频 “Homo Deus — La probabilidad de que estés viendo la realidad es del 0%” (YouTube)。加扎尼加的裂脑研究与解释器概念(Gazzaniga, “The Social Brain,” 1985; “Who’s in Charge?,” 2011)。Claude Code 源码泄露分析(2026年3月31日;adversa.ai、The Register、SecurityWeek)。舰队实验日志(2026年4月13日)。