过去两年,AI行业一直向你兜售同一个故事:更大的模型需要更多内存,更多内存需要更多芯片,更多芯片需要更多钱。订阅高级套餐。升级你的硬件。未来是昂贵的,你最好习惯这一点。

谷歌刚刚把这个故事戳了个窟窿。

TurboQuant:内存减少六倍,精度零损失

昨天,谷歌研究院发布了TurboQuant——一种将KV cache(大语言模型在对话过程中使用的工作内存)压缩至每个值仅3比特的算法。无需重新训练。无需微调。精度零损失。

数据如下:内存减少六倍;H100 GPU上速度最高提升八倍。该论文将于本月底在里约热内卢举办的ICLR 2026上正式发表。

互联网立刻将其与Pied Piper相提并论。这个比喻颇为贴切——只不过Pied Piper是虚构的,而TurboQuant有实实在在的基准测试成绩。

博文发布后短短数小时,开发者们便开始从头实现这个算法。不是用谷歌的代码——谷歌一行代码都没发布。他们读懂了数学原理,自己动手写了实现。一位开发者在RTX 4090上以2比特精度复现了与未压缩基线完全一致的输出。PyTorch、MLX和llama.cpp的社区实现已经相继出现。

美光和西部数据的股票在开盘时双双下跌。

这个趋势并不新鲜。新的是这次的汇聚。

TurboQuant并非凭空而来。它只是一条弯曲超过一年的曲线上的最新一点:

  • DeepSeek证明了可以用低端芯片以极低的成本训练出有竞争力的模型。西方曾说这不可能——直到它真的发生了。
  • GLM和Qwen以七分之一的价格提供与顶级模型相当的能力。不是因为它们更差——而是因为它们更高效。
  • MoE架构每次查询只激活模型的一小部分参数,大幅降低计算需求。
  • 推测解码通过小模型起草token、大模型验证的方式加速推理过程。

每一项都是独立的突破。合在一起,它们形成了一个清晰的规律:算法效率正在超越硬件规模扩展。 每一次效率提升,都在部分抵消对暴力算力的需求。

内存制造商把赌注押在了相反的方向。他们扩大产能,假设AI需求会线性增长。事实并非如此。

谷歌与苹果的共生关系

有趣的地方来了。谷歌开发TurboQuant并不是为了帮你在Mac Studio上跑Llama。他们是为了自己的数据中心、为了Gemini的推理效率、为了处理数十亿次查询的经济账。

但谷歌每年向苹果支付约两百亿美元的搜索分发费用。Gemini正在整合进iOS。谷歌需要苹果的硬件高效运行其模型——因为这是你在不制造任何消费设备的情况下,触达数亿用户的唯一途径。

而苹果需要在设备本地运行的模型来支撑其隐私叙事。每一次让更大模型塞进统一内存的效率提升,都是苹果”你的数据永不离开你的设备”这一卖点的弹药。

这不是偶然的合作,而是结构性的共生。谷歌优化推理→社区移植到MLX→Apple Silicon运行更大的模型→苹果卖出更多硬件→谷歌获得更多分发渠道。皆大欢喜。

唯一的输家,是那些卖内存的公司。

内存行业的紧箍咒

内存行业一直靠人为制造的需求活着。数据中心囤积了所有能买到的AI训练芯片。价格一飞冲天。SK海力士和美光创下利润率新高。三星拼命追赶HBM的产能。

现在,压力从两个方向同时袭来:

从上方: 像TurboQuant这样的算法意味着每块GPU处理相同工作负载所需的内存更少了。KV cache缩减六倍,意味着你要么用相同硬件服务六倍的用户,要么购买六分之一的硬件承载相同的负荷。这两种情形对内存销售都不是好消息。

从下方: 端侧推理减少了对云端的依赖。如果你的手机或笔记本能在本地跑起一个有能力的模型,数据中心就少了一个访问请求。苹果、高通和英特尔都在全力推进本地AI——每一次效率突破都让它们的方案更具说服力。

内存制造商会调整,他们总是这样。但”调整”意味着价格竞争,也就意味着消费级硬件将变得更便宜。那笔用来升级工作站内存的钱?十八个月后,你看它的眼光会大不一样。

如果你不是数据中心,这意味着什么

如果你在本地跑模型——Mac、Linux机器,或者家里的GPU——这是实际的影响:

一个4比特量化模型加上4比特TurboQuant KV cache,可以在消费级硬件上以较长的上下文运行相当大的模型。 一年前,这句话还只是一个愿景。今天,人们正在4090和M系列Mac上付诸实践。

那个曾经用128GB统一内存配长上下文窗口才勉强跑得动的700亿参数模型?有了TurboQuant式的压缩,同样的对话轻松放下。瓶颈从”内存够不够?“变成了”带宽够不够?“——而在Apple Silicon上,内存带宽恰恰是最强的卖点之一。

这才是真正有意义的普惠化。不是又一个按月收费的聊天机器人套壳。不是又一个按token计费的API。是真正的模型,跑在你自己的硬件上,输出由你掌控。

普通人的时刻

AI行业构建了一套叙事:未来属于那些能买得起最多算力的人。更大的集群。更多的GPU。更贵的订阅套餐。

但算法不吃这一套。谷歌研究院的一篇论文加上一天的社区黑客马拉松,刚刚让每一块现有的GPU都变得更强大了。中国实验室一再证明,限制催生创新而非屈服。谷歌效率研究与苹果硬件生态之间的共生关系,意味着红利向下流淌——流向那些守着一块键盘和家用服务器的普通人。

那些花了两年时间告诉你”你需要更多、更多、更多”的公司,即将发现算法并不同意它们的说法。

内存军备竞赛正在走向终结。不是以崩溃告终,而是以压缩告终。


The Frontier View每年运营成本10.36美元。它所报道的这个行业每年烧掉190亿美元。TurboQuant的压缩比是6:1。我们的压缩比是1,835,000:1。效率赢了。