Transformer は死んでいない — 死んだのはその独占だ

そして本当の競争は、もはやGPUの数を競うものではない。

あなたが今日使っている主要なAIモデル——ChatGPT、Claude、Gemini、Grok——はすべて同じ基盤アーキテクチャで動いている：Transformer だ。2017年にGoogleの論文「Attention Is All You Need」で世に出たこのアーキテクチャは、シンプルかつ優雅な一つのアイデアで約10年にわたってAIを支配してきた。序列の中のすべての単語が、他のすべての単語に同時に注目できる、というものだ。

それは機能した。見事なほどに。

だがその見事さには、代償が伴う。注意機構の計算量は、シーケンス長に対して二乗のオーダーで増加する。コンテキストウィンドウを倍にすれば、計算コストは4倍になる。トークン数が100,000になると、コストは現実的な制約となる。100万トークンともなれば、実質的に不可能だ。そしてフロンティアモデルをゼロからトレーニングするには——GPT-4やClaude Opusを生んだような力業のスケーリングには——1回の実行で数億ドルがかかる。

AI業界が現在この問題に対して出している答えはシンプルだ：ハードウェアをどんどん投入する。H100を増やし、クラスターを大きくし、データセンターを拡大し、電力を増やす。

だが、答えがGPUを増やすことではなかったとしたら？より優れたアーキテクチャにあったとしたら？

挑戦者たち

この2年間で、代替アーキテクチャの一群が、学術的な好奇心の対象から実用に耐えうる現実のソリューションへと静かに成熟してきた。それらに共通するテーゼがある：Transformerの二乗の注意機構は単に高価なだけでなく、私たちがAIに求めることの多くにとって、そもそも不要だということだ。

Mamba は2023年末にAlbert GuとTri Daoが発表した。注意機構を、制御理論から借用した選択的状態空間——線形時間でシーケンスを処理する仕組み——で完全に置き換えた。Mamba-3Bモデルは同サイズのTransformerを上回り、2倍のサイズのモデルに匹敵した。2026年3月にはMamba 3が登場し、ICLR 2026で発表された。推論ファーストの設計を採用し、Mamba-2の半分の状態サイズで同等のパープレキシティを実現している。

Titans はGoogle Research（Ali Behrouz ら、2024年12月）によるもので、ニューラル長期記憶モジュールを導入した。「驚き」に基づいて記憶を学習する仕組みだ——予測に反する出来事ほど、より永続的に保存される。NeurIPS 2025で発表されたTitansは、200万トークンを超えるコンテキストウィンドウにスケールし、「藁の山から針を探す」タスクでTransformerを超える精度を達成した。

Infini-Attention（Google、2024年4月）は、過去の情報を永続的なメモリバンクに圧縮することで、Transformerを事実上の無限コンテキストへと拡張した。Transformerは消えるのではなく、変容するのかもしれないことを示唆している。

多トークン予測（Meta、2024年）は別の前提に挑戦した：1トークンずつ予測する代わりに、複数トークンを同時に予測する。DeepSeek-V3がこの技術を採用し、効率面での成果は大きかった。

これらのどれも万能薬ではない。それぞれが異なる制約を解決する。しかし合わせて見れば、一つの明確な絵が浮かび上がる：Transformerが唯一の実行可能なアーキテクチャだった時代は終わった。

論文から本番環境へ

もはや理論の話ではない。ハイブリッドモデル——TransformerのAttentionとSSM層を組み合わせたアーキテクチャ——はすでに本番環境でリリースされている：

NVIDIAのNemotron-H は注意層の92%をMamba2ブロックに置き換え、LLaMA-3.1やQwen-2.5などの純粋なTransformerと比べてスループットを最大3倍に向上させながら、標準ベンチマークで同等以上の精度を達成した。オープンソース化済み。
AI21のJamba 1.5 は、Transformer-Mamba-MoEハイブリッドアーキテクチャを総パラメータ3980億（アクティブ940億）にスケールさせ、256Kトークンのコンテキストウィンドウをサポートする。比率は7層のMambaに対して1層のTransformerだ。
MicrosoftのPhi-4-mini-flash-reasoning はSambaYを導入した。Mamba、スライディングウィンドウアテンション、そして新しいGated Memory Unitを組み合わせたデコーダーハイブリッドデコーダーアーキテクチャだ。38億パラメータでありながら、2倍のサイズのモデルに匹敵するパフォーマンスを、10倍のスループットで実現した。
IBMのBamba-9B は量子化によってモデルサイズを18GBから9GBに削減しつつ、LLaMA-3.1 8Bと同等のパフォーマンスを維持した。

パターンは一貫している：ハイブリッドアーキテクチャは、推論コストの一部でTransformerレベルの精度を実現する——特に長いシーケンスで。研究コミュニティで形成されつつあるコンセンサスは「TransformerかSSMか」ではない。「実際にどれだけの注意が必要か、そしてどこで必要か？」だ。

より深いシフト：止まらない学習

推論の高速化と学習コストの低減は重要だ。だが最もラジカルな研究の潮流が向かう先は、まったく別の領域だ。

今日の言語モデルには根本的な限界がある：トレーニングが終わると、静止してしまう。知識はカットオフ日時点で凍結し、使用中にウェイトは更新されない。すべての会話は、世界の同じ凍結されたスナップショットから始まる。これは、在学中に読んだすべてのことを完璧に記憶しているが、卒業以来何一つ学んでいない同僚がいるようなものだ。

Nested Learning はGoogle ResearchによってNeurIPS 2025で発表された（Ali Behrouz、Meisam Razaviyayn、Peilin Zhong、Vahab Mirrokni——Titansと同じチームだ）。そこで提唱されているのは、ほとんど異端とも言える主張だ：モデルのアーキテクチャとトレーニングアルゴリズムの区別は、幻想に過ぎない。それらは同じもの——情報の流れと更新頻度がそれぞれ異なる、ネストされた最適化の層——だということだ。

実践的な帰結として：連続的なメモリシステムを持つモデルを設計できるようになる。異なる速度で更新されるモジュールで構成されたシステムだ。一部のモジュールはトークンごとに更新される（高速な、ワーキングメモリ）。他のモジュールはゆっくりと更新され、数千ステップをかけて知識を統合する（長期メモリ）。モデルはデータを処理するだけでなく、複数のタイムスケールで同時に継続的に学習する。

概念実証アーキテクチャである Hope は、自己修正型の再帰モデルで、推論中に文字通り自身の更新ルールを学習できる。言語モデリング、常識推論、長コンテキストタスクにおいて、TransformerとTitansの両方を上回った。

そして2025年5月、同じチームが ATLAS を発表し、DeepTransformers を導入した——最適化されたメモリを持つ、元のTransformerアーキテクチャの厳密な一般化だ。ATLASはBABILongベンチマークにおいて、1000万トークンのコンテキストで80%超の精度を達成した。1000万トークン。それはおよそ15,000ページのテキストに相当する。

これは同一チームが、Google Research内部で、1年間に3本の論文を発表したものだ。それぞれが前のものの上に構築されている。これは散発的な学術的アウトプットではない。これは研究プログラムだ。

経済を変えるコンセプト

AIのビジネスを気にしているすべての人にとって——つまりすべての人に——ここが面白くなる部分だ。

今日フロンティアモデルをトレーニングすることは、一つの「イベント」だ。数億ドルかかり、数ヶ月を要する、巨大で集中的な計算リソースの消費だ。より良いモデルが欲しければ、基本的に最初からやり直す。改善のたびに、また膨大な先行投資が必要になる。

Nested Learningは別のモデルを提案する：学習を時間に分散させる。一度のトレーニングランに計算リソースを一気に集中させるのではなく、モデルが稼働しながら継続的に改善する。推論サイクルのたびに、小さな学習ステップが生まれる。改善コストは、一度の巨大な設備投資から、分散された運用コストの流れへと移行する。

これはトレーニングをなくすことではない。強固なベースモデルは依然として必要だ。しかしそのモデルを最新の状態に保ち、関連性を維持し、改善し続けるための経済モデルを、根本から変える。

そしてこのコンセプト——実行するだけでなく、反復を通して学ぶ——は、底層の実装がまだこれらのアーキテクチャを直接使っていないとしても、すでに製品に現れ始めている。

すでに起きている場所

GoogleのJitro——Jules V2（次世代コーディングエージェント）の社内開発コード——が数日前に明らかになった。そのポジショニングは：「エージェントに手動でプロンプトを書くのは、2025年のやり方だ」。特定のタスクを定義する代わりに、開発者はテストカバレッジの向上、レイテンシの削減、アクセシビリティコンプライアンスの改善といった高レベルの目標を設定する。エージェントはコードベースの中で何を変える必要があるかを自律的に特定し、目標に向かって反復する。専用の永続ワークスペースを持ち、目標・洞察・更新履歴を維持する。一度実行して忘れるのではなく、ループの中で動作し、前の反復を積み上げていく。

智谱のGLM-5.1 は2日前にリリースされ、さらに一歩進んでいる。モデルは単一のコーディングタスクを最大8時間、自律的に処理できる——継続的なループの中で計画し、実行し、テストし、最適化する。技術論文では、長期的な相互作用からの学習に特化して設計された、新しい非同期Agent RLアルゴリズムが説明されている。モデルは完全に華為のAscendチップでトレーニングされており、NVIDIAのハードウェアはゼロだ。APIコストは同等の西側フロンティアモデルより約5〜8倍安い。

これら2つの製品は、底層でNested LearningやHopeアーキテクチャを使っているとは確認されていない。Transformerに洗練されたスキャフォールディング——エージェントフレームワーク、ツールチェーン、外部状態データベース——を組み合わせている可能性が高い。しかしコンセプトは同じだ：時間をかけて反復し、記憶し、自己修正するモデル——単一のプロンプトに応答して忘れるのではなく。

スキャフォールディングのアプローチは機能する。しかし脆く、コストが高い。これをネイティブに行うアーキテクチャ——外部エンジニアリングではなく設計によって継続的に学習する——は、根本的により効率的だ。そしてそれこそが、Google Researchが構築しているものだ。

ai-2027.comとの接点

この軌跡は、ai-2027.comが描いたシナリオと正確に一致する——元OpenAI研究者のDaniel KokotajloとScott Alexanderによる詳細なAGIロードマップだ。彼らのタイムラインは、AIエージェントが段階的にAI研究自体を自動化していく様子を描いている：各世代のエージェントが、より速く、より安く次世代を構築するのを助ける。

彼らのシナリオでは、2026年半ばまでにAIは1.5倍の研究乗数を達成する——1週間のエージェント支援作業が、以前の1.5週間分の成果を生む。2027年3月には「超人的コーダー」が登場する。2027年末には、その乗数が50倍に達する。

このシナリオが実現するためには、Nested Learningが記述するものがちょうど必要だ：命令を実行するだけでなく、自身の反復から学ぶモデル。作業のサイクルごとに次のサイクルをわずかに改善するモデル。行動と改善の間のループを閉じるモデル。

これを最初に解決した会社——すべての推論サイクルを学習に変えた会社——こそが指数的な成長に乗れる。1回のトレーニングランに数億ドルを燃やし続けている会社は、宝くじを買っているようなものだ。

優位な立場にある者、リスクにさらされている者

Google は基礎研究（BehrouzチームによるTitans → Nested Learning → Hope → ATLAS）と、それを必要とする製品（Jitro、Gemini）の両方を持っている。長期的な資本、インフラの自社所有、そしての間ごとにすべての突破口を即収益化する必要のない余裕がある。この研究が成熟するのを待つことができる。

中国のラボ——特に智谱（GLM-5.1）とDeepSeek——は制約が革新を生むことを証明している。国産ハードウェアで西側のほんの一部のコストでトレーニングし、価格の15%でフロンティア性能の95%に達している。GLM-5.1の8時間自律コーディングループはギミックではない——継続的な動作が今日すでに実行可能であることの実証だ。

OpenAIとAnthropicは、Transformerパラダイムのスケーリングに注力し続けている。より大きなモデル、より多くの計算、より高いサブスクリプション価格。力業が効率性を上回り続ける限り、これは機能する。しかしモデルの品質が収束するにつれ——そして実際に収束しつつある——優位性はH100を最も多く持つ者から、最善のアーキテクチャを持つ者へと移っていく。

本当のフロンティアは、最高のベンチマークスコアではない。最良の学習ループだ。

あなたにとって何を意味するか

月20ドルのAIサブスクリプションを払っているなら、重要なのはこれだ：今日使っているモデルは、数ヶ月前に凍結された。あなたとの会話から学ばない。自分のミスから改善しない。すべてのセッションがゼロから始まる。

次世代のAIはそのようには動かない。継続的に学習するモデル、使用を通して改善するモデル、トレーニングコストを1回の巨大な消費に集中させるのではなく時間に分散させるモデル——それらは来る。より速く、運用コストが安く、静的であるよりも時間とともに有能になる。

問題は誰が最初にそれを作るか、そして本来20ドルの価値のものに200ドル払う必要があるかどうかだ——あるいは中国のラボからの競争が、実際の経済性を反映した価格設定を強いるかどうかだ。

私たちは注視し続ける。それが毎週金曜日の意味だ。

これはThe Frontier Viewの金曜シリーズ第1弾——AIの次の章を形作る研究とアプリケーションを毎週追う連載だ。水曜日と日曜日の記事では、通常の編集分析を続けていく。

ソース

引用論文：

Mamba (Gu & Dao, 2023): arXiv 2312.00752
Mamba-2 / State Space Duality (Dao & Gu, 2024): arXiv 2405.21060
Mamba-3 (Lahoti et al., 2026): arXiv 2603.15569 — ICLR 2026
Titans (Behrouz et al., 2024): arXiv 2501.00663 — NeurIPS 2025
Nested Learning (Behrouz et al., 2025): arXiv 2512.24695 — NeurIPS 2025
ATLAS (Behrouz et al., 2025): arXiv 2505.23735
Infini-Attention (Google, 2024): arXiv 2404.07143
Multi-token Prediction (Meta, 2024): arXiv 2404.19737
DeepSeek-V3 (2024): arXiv 2412.19437
GLM-5 Technical Report (Zhipu/Tsinghua, 2026): arXiv 2602.15763

製品と発表：

Jitro / Jules V2: testingcatalog.com, April 6, 2026
GLM-5.1: techbriefly.com, April 8, 2026
Nemotron-H: NVIDIA, open-sourced via Hugging Face
Jamba 1.5: AI21 Labs
Phi-4-mini-flash-reasoning / SambaY: Microsoft, July 2025
ai-2027.com scenario: Daniel Kokotajlo & Scott Alexander