過去2年間、AI業界はあなたにこんな話を繰り返してきた。モデルが大きくなればRAMが必要で、RAMが増えればチップが必要で、チップが増えれば金が必要だ。プレミアムプランに加入しろ。ハードウェアをアップグレードしろ。未来はコストがかかるものだから、慣れておいた方がいい。

Googleがその話に大きな穴を開けた。

TurboQuant:メモリ6分の1、精度ゼロ劣化

昨日、Google ResearchはTurboQuantを発表した。これはKVキャッシュ(LLMが会話中に使用するワーキングメモリ)を1値あたりわずか3ビットまで圧縮するアルゴリズムだ。再訓練は不要。ファインチューニングも不要。精度の劣化もなし。

数字を見てほしい。メモリ使用量が6分の1に削減。H100 GPUでは最大8倍の高速化。この論文は今月末にリオデジャネイロで開催されるICLR 2026で発表される予定だ。

インターネットはすぐに「まるでPied Piperだ」と騒ぎ立てた。比喩としては的を射ている——ただし、Pied Piperはフィクションで、TurboQuantにはベンチマーク結果がある。

ブログ投稿が公開されてから数時間のうちに、開発者たちはゼロからの実装を始めた。Googleのコードを使ったわけではない——Googleはコードを一切公開していないからだ。彼らは数式を読み解き、自分たちで書いた。ある開発者はRTX 4090上で2ビット精度において非圧縮ベースラインと完全に一致する出力を得た。PyTorch、MLX、llama.cpp向けのコミュニティ実装はすでに存在する。

MicronとWestern Digitalの株価は市場開始直後に下落した。

このトレンドは新しくない。収束が新しいのだ。

TurboQuantは真空の中に生まれたわけではない。1年以上前から曲がり続けてきた曲線の上の、最新の1点に過ぎない。

  • DeepSeekは、低性能チップでわずかなコストで競争力のあるモデルを訓練できることを証明した。欧米は「不可能だ」と言い続けた——それが実現するまでは。
  • GLMとQwenは、最先端と同等のモデルを7分の1の価格で提供している。性能が劣るからではない——効率が優れているからだ。
  • MoEアーキテクチャは、クエリごとにモデルパラメータのごく一部しかアクティベートせず、計算コストを劇的に削減する。
  • 投機的デコーディングは、小さいモデルでトークンを下書きし、大きいモデルで検証することで推論を高速化する。

これらはそれぞれが独立したブレークスルーだ。しかし合わさると、一つのパターンが浮かび上がる。アルゴリズムの効率化がハードウェアのスケーリングを上回っている。 効率の向上は、力任せの計算リソースへの需要を部分的に相殺する。

RAMメーカーは逆の軌道に賭けていた。AIの需要が線形に拡大し続けると仮定して生産を拡大した。そうはならない。

GoogleとAppleの共生関係

ここからが本当に興味深い部分だ。GoogleがTurboQuantを作ったのは、あなたがMac StudioでLlamaを動かすためではない。自社のデータセンターのために、Geminiの推論のために、数十億のクエリを処理するための経済性のために作ったのだ。

しかしGoogleは、検索の配信チャネルを確保するためにAppleに年間約200億ドルを支払っている。GeminiはiOSに統合されつつある。Googleは自社モデルをAppleのハードウェア上で効率的に動かす必要がある——それが消費者向けデバイスを1台も作らずに数億人のユーザーにリーチする方法だからだ。

そしてAppleは、プライバシーに関する自社の主張を支えるために、端末上で動くモデルを必要としている。大きなモデルをUnified Memoryに収められるようにする効率向上は一つ一つが、「データがデバイスから出ることは一切ない」というAppleの売り文句の弾薬になる。

これは偶然の産物ではない。構造的な共生関係だ。Googleが推論を最適化する→コミュニティがMLXに移植する→Apple Siliconがより大きなモデルを動かす→Appleがより多くのハードウェアを売る→Googleがより広い配信チャネルを得る。全員が勝者だ。

RAMを売っていた企業を除いて。

メモリ産業への圧力

メモリ産業は人工的な需要の上で生きてきた。データセンターはAI訓練用に手に入るチップを根こそぎ買い占めた。価格は天井知らずに上昇した。SK HynixとMicronは記録的な利益率を叩き出した。SamsungはHBMの生産で追いつくために必死に動いた。

今、その圧力は両側から来ている。

上からの圧力: TurboQuantのようなアルゴリズムは、各GPUが同じワークロードをこなすのに必要なメモリが減ることを意味する。KVキャッシュのサイズが6分の1になるということは、同じハードウェアで6倍のユーザーに対応できるか、同じ負荷に対して6分の1のハードウェアで済むかのどちらかだ。どちらのシナリオもメモリ販売には良くない。

下からの圧力: 端末上での推論はクラウド依存を減らす。スマートフォンやノートPCが有能なモデルをローカルで動かせるなら、それはデータセンターへのアクセスが一人分減るということだ。Apple、Qualcomm、IntelはいずれもローカルAIを推進しており、効率化のブレークスルーが起きるたびに彼らの主張はより説得力を増す。

メモリメーカーは適応する。常にそうしてきた。しかし「適応」とは価格競争を意味し、それは消費者向けハードウェアが安くなることを意味する。あのワークステット用のRAMアップグレードに払う金額?18ヶ月後には、まったく違って見えるだろう。

データセンターでない人には何を意味するか

Macでも、Linuxマシンでも、自宅のGPUでも——ローカルでモデルを動かしているなら、実際的な意味はこうだ。

4ビット量子化モデルに4ビットのTurboQuant KVキャッシュを組み合わせれば、長いコンテキストを使って相当大きなモデルを消費者向けハードウェアで動かせる。 一年前は夢物語だった話だ。今日、人々は4090やMシリーズのMacでそれを実現している。

かつては128GBのUnified Memoryを長いコンテキストウィンドウで使い切っていた700億パラメータのモデルが、TurboQuant式の圧縮によって同じ会話が余裕で収まるようになる。制約は「RAMは足りているか?」から「帯域幅は足りているか?」に変わる——そしてApple Siliconでは、メモリ帯域幅こそが最大の強みの一つだ。

これが本当に重要な民主化だ。月額料金のかかるまたひとつのチャットボットラッパーではない。トークンごとに課金されるまたひとつのAPIでもない。自分が所有するハードウェア上で動く本物のモデル、そして自分でコントロールできるアウトプット。

普通の人のための時代

AI業界は、未来は最も多くの計算資源を買える者のものだという物語を作り上げてきた。より大きなクラスター。より多くのGPU。より高いサブスクリプション階層。

しかしアルゴリズムはその物語を尊重しない。Google Researchの1本の論文と1日のコミュニティハッキングが、今ある全てのGPUをより有能にした。中国の研究機関は制約が服従ではなくイノベーションを生むことを証明し続けている。そしてGoogleの効率化研究とAppleのハードウェアエコシステムの共生関係は、その恩恵が下へと流れることを意味する——キーボードとホームラボを持つ個人のもとへ。

「もっと必要だ、もっと、もっと」と2年間言い続けてきた企業たちは、アルゴリズムが同意していないことをまもなく思い知るだろう。

RAMの軍拡競争は終わりを迎えつつある。崩壊によってではなく、圧縮によって。


The Frontier Viewの年間運営コストは10.36ドル。取り上げているこの業界は190億ドルを燃やす。TurboQuantの圧縮率は6:1。私たちの圧縮率は1,835,000:1。効率が勝つ。