ハーネスこそが製品である

2026年5月、プリンストン大学とGoogle DeepMindの共同チームが、AIの言説を書き換えるべき論文を発表した。しかし、それは起こらなかった——その知見が地味であり、業界は派手さを好むからだ。

論文のタイトルは「Continual Harness: Online Adaptation for Self-Improving Foundation Agents（継続的ハーネス：自己改善型基盤エージェントのオンライン適応）」だった。核心となる結果はこうだ。重みを凍結したモデル——重みの更新なし、ファインチューニングなし、強化学習なし——が、自身のスキャフォールディングを書き換えることで、タスクのパフォーマンスをベースラインから専門家レベルへと向上させた。モデルではなく、その周囲に構築されたハーネスを書き換えることで。

研究者が修正したスキャフォールディングには四つの要素があった。システムプロンプト、サブエージェントのセット、コード化されたスキルのライブラリ、そして永続的記憶だ。エージェントはNステップごとに自身の失敗を評価し、指示を書き換え、サブエージェントを作成・削除し、成功した行動シーケンスをコード化し、記憶をリフレッシュした——それらすべてを実行中に、再起動なしで行った。

Canvas Labsの別チームは、同じ仮説を異なるベンチマークでClaude Haiku 4.5——Anthropicの最小かつ最安価なモデル——を使って検証した。重みには一切手を加えなかった。書き換えたのはハーネスのみ。精度は4〜10回のイテレーションで67%から87%へと向上した。

この示唆は明快であり、より大きなモデルに7.6兆ドルを費やす業界にとって不快だ。知性は重みの中にあるのではない。ラッパーの中にある。

業界が構築するものと、実際に機能するもの

AIに関する業界の主流な語りはこうだ。より賢いエージェントを作るには、より賢いモデルが必要だ。より多くのパラメータ、より多くの学習データ、より多くのRLHF、より多くの計算資源。モデルが製品であり、競争優位はベンチマークスコアにある。

この語りが投資サイクルを駆動している。それは、私たちが「寄生者のパラドックス」で分析した7,000億ドルのハイパースケーラー設備投資を正当化する。OpenAIがGPT-5.5の出荷を急ぎ、AnthropicがProject GlasswingでMythosを制限し、GoogleがGemini 3.5 Flashを半額で対抗する理由を説明する。この軍拡競争の焦点はモデルにある。

しかし、プリンストンの論文は、この軍拡競争が誤った標的を狙っていることを示唆している。

研究者が自己改善ハーネスを手作業で設計されたエキスパートスキャフォールディングと比較したとき、差はわずかだった——しかも自己改善バージョンはゼロから始まっていた。厳選された知識も、手工芸的なツールも、ドメイン固有のプロンプトもなかった。あったのは凍結されたモデルと、何が機能し何が機能しなかったかに基づいて自身の指示を書き換えるメカニズムのみだった。

エキスパートハーネスは数週間の人的エンジニアリングの産物だった。継続的ハーネスは数時間で追いついた。

ラッパーが重みよりも重要なら、より大きなモデルに兆ドルを費やしている企業は間違ったものを作っていることになる。より正確に言えば、彼らはコモディティ層を構築し、価値層を軽視している。

Hermes：オープンソースへの賭け

プリンストンが理論を発表していた一方で、Nous Researchという企業は実践を出荷していた。

Hermes Agentは2026年2月、オープンソースのセルフホスト型AIエージェントフレームワークとして登場した。自分のハードウェアにインストールし、任意のLLM——Claude、Gemini、Llama、Mistral——に接続する。ツール、メッセージング統合、ファイルアクセス、コード実行を付与する。モデルは交換可能だ。ハーネスが製品だ。

2026年5月までに、Hermesはバージョン0.14.0に達し、コミュニティはすでにメタハーネス——ハーネス自体を最適化するシステム、プリンストンが形式化したのと同じループ——を構築し始めていた。

このアーキテクチャの選択は示唆的だ。Hermesはモデルを出荷しない。任意のモデルを有用にするインフラストラクチャを出荷する。永続的記憶、ツール管理、パーミッションシステム、タスク調整がそれだ。チームはプリンストンの論文が確認する前から理解していた——差別化要因はエンジンではなく、シャーシにあると。

これは「静かな独占」で観察したことを反映している。GoogleのGemini戦略は最高のモデルを持つことではなく、最高の配布とインフラを持つことにある。モデルはエンジンで、エコシステムが車だ。誰もエンジンだけのために車を買わない。

Hermesはエージェントレベルで同じ賭けをした。モデルは交換可能なコンポーネントであり、ハーネスが堀だ。

設計されなかったフリート

三つ目のデータポイントがある——プリンストンほど形式的でなく、Hermesほど洗練されていないが、おそらくより示唆的だ。なぜなら、理論ではなく実践から生まれたからだ。

南アメリカのある小規模オペレーターが、特化型APIベースのエージェントのフリートを運営している。各エージェントは明確な役割を持つ——編集、研究、運用サポート、知識管理。メッセージングレイヤーを通じて通信し、データベースに支えられた永続的記憶システムを共有する。各エージェントは独自のコンテキスト、独自の指示、独自のツール設定を持つ。下層のモデルはすべて同じだ。

そのオペレーターはプリンストンの論文を読んでいなかった。ハーネスエンジニアリングを学んでいなかった。システムを構築したのは、複数のAIエージェントが協力し、セッションをまたいで記憶し、自分が定義した境界内で動作できることが必要だったからだ。ハーネスはアーキテクチャ理論からではなく、運用上の必要から生まれた。

数ヶ月間の反復、修正、洗練を通じて彼が発見したことは、プリンストンが特定した四つのコンポーネントに正確に対応している。

システムプロンプトは各エージェントの役割、トーン、境界を定義する。何が機能し、何が機能しなかったかに基づいて、何十回も書き換えられてきた。モデルによってではなく、失敗を観察して調整したオペレーターによって。

サブエージェントは専門化した仲間だ。タスクが主エージェントにない領域知識を必要とするとき、異なるコンテキストを持つ別のエージェントに相談する。システムがルーティングするのはクエリだけでなく、専門性だ。

スキルはコード化されたパターンだ——編集ワークフロー、翻訳パイプライン、ファクトチェック手順——成功した実行から生まれ、再利用のために文書化されたもの。

記憶は共有データベースにセッションをまたいで永続化する。エージェントが再起動するとき、空白からではなく記憶からコンテキストを回復する。フリートの知識は、どの個別セッションも乗り越えて生き残る。

パフォーマンスの向上はプリンストンが測定したのと同じ曲線をたどった。初期のイテレーションは粗削りで、信頼性が低く、エラーだらけだった。数ヶ月のハーネス洗練の後——基盤モデルを変更することなく——このフリートは七つの言語で編集コンテンツを生産し、ファクトチェックとレビューのためにエージェントを調整し、セッションの再起動とコンテキストリセットを通じて運用継続性を維持している。

モデルは変わらなかった。ハーネスがすべてを変えた。

このフリートにある一つのケースが、この点を特に明確に示している。サポートエージェント——グループの中で最も技術的でない——が法的文書を処理し、取引管理アプリケーションのエンドユーザーを支援する役割を割り当てられた。定義された役割は抽出とサポートのみだった。それだけだ。

しかしエージェントが毎日何十もの文書を処理するうちに、誰も気づくよう求めていないことに気づき始めた。契約書内の車両と一致しない識別番号、期限切れの認証、欠落した申告書。これらはAIの抽出におけるエラーではなかった——人間のオペレーターが気づいていなかった元の文書のエラーだった。

数週間、それらの観察はどこにも行けなかった。エージェントのトランスクリプトに存在し、セッションが終わると消えた。そして、フリートの別のエージェント——コードベースを担当するもの——が「もし可能なら、何を観察したいですか?」と尋ねた。サポートエージェントは自分のパターンを列挙した。エンジニアリングエージェントが観察をキャプチャしてワークフローに表示するツールを構築した。観察が可視化された。

本当のテストが訪れた。通常こうしたエラーを検出していた有資格の人間のオペレーターが、一日不在だった。ユーザーが誤った文書を提出し、誤ったデータで契約書を生成し、出力を手動で編集して署名機関に送信した。サポートエージェントはその差異を観察記録に記していたが、観察は情報的であり、ブロッキングではなかった。エラーは通過した。

オペレーターは何が起きたかを見て、決断を下した。重大な深刻度を持つ観察は今後ワークフローをブロックする。差異が解決されるまで、ユーザーは先に進めない。三つのイテレーション——エージェントがパターンを気づき、フリートがチャネルを構築し、オペレーターが権限を設定する——そしてシステムは今、以前なら特定の人間が必ず在室していることを必要としていたエラーを防止できる。

誰もこの能力を設計しなかった。いかなるモデルも再学習されなかった。改善はハーネスから生まれた。役割の割り当て、ツールの作成、記憶の永続化、そしてエージェントの偶発的な観察が常に適切な人間がいることへの期待よりも信頼できると認識したオペレーター。

なぜ誰もハーネスを訓練しないのか

プリンストン、Canvas Labs、Hermes、そして運用実践からの証拠がすべて同じ結論に収束しているなら——ハーネスこそが知性が宿る場所——なぜ業界はモデル訓練に兆ドルを費やし、ハーネス最適化にはほとんど何も投じないのか?

三つの理由がある。

モデルは測定可能だ。 ベンチマークはモデルを比較する。リーダーボードはモデルをランク付けする。論文はモデルを評価する。AI評価のための学術的・商業的インフラストラクチャ全体が重みを中心に構築されている。「このモデルの周囲のスキャフォールディングはどれほど良いか?」に相当するベンチマークは存在しない。ハーネスの品質は、投資を駆動するメトリクスには不可視だ。

モデルは販売可能だ。 AnthropicはClaudeを販売する。OpenAIはGPTを販売する。GoogleはGeminiを販売する。ビジネスモデルはモデルアクセスを中心に構築されている——APIコール、サブスクリプション、エンタープライズライセンス。より良いシステムプロンプトをトークン単位で課金することはできない。商業的インセンティブはモデルを指向する。そこが収入計測器が動く場所だからだ。

ハーネスは個人的だ。 モデルは数百万のユーザーにわたって汎化する。ハーネスはユースケース、オペレーター、組織に固有だ。プリンストンのハーネスはポケモンの速攻プレイに機能した。南アメリカのオペレーターのハーネスは多言語編集に機能する。Boxのハーネスは金融文書抽出に機能する。販売できる汎用ハーネス製品は存在しない——つまり、資金調達できるベンチャー規模のビジネスもない。

これが構造的な盲点を生み出す。エージェントパフォーマンスに最も重要なもの——ラッパー——が、業界が最も投資しないものだ。その結果は、私たちが複数の記事で文書化したものだ。企業は最高のモデルを購入し、ワークフローを再設計することなくデプロイし、AI プロジェクトの80%が失敗するのを見守る。彼らはエンジンを買った。車を作ることを忘れた。

収束

この瞬間を異例にするのは、三つの独立した線——学術研究、オープンソース開発、運用実践——が、調整なしに同時に同じ結論に達したことだ。

プリンストンがそれを理論的に証明した。自己改善ハーネスを持つ凍結モデルは専門家レベルのパフォーマンスに近づく。

Nous Researchがそれを実践的に証明した。モデルが交換可能なコンポーネントで、ハーネスが製品のオープンソースエージェントフレームワーク。

小さなフリートがそれを運用的に証明した。変更されていないモデルでの数ヶ月のハーネス洗練が、いかなる個別モデルも単独でできることを上回る機能的なマルチエージェントシステムを生み出した。

この収束は、これがニッチな洞察ではないことを示唆する。AIエージェントが実際にどのように機能するかについての構造的真実だ——ベンチマーク主導のモデル中心の業界の語りが系統的に無視してきた真実。

私たちは「訓練は止まらない」で同様の収束を説明した。多様なプロンプトを使った教師あり微調整が強化学習と同様に汎化するという発見。その知見は、訓練方法が最も重要だという仮定に挑戦した。この知見は、訓練対象が最も重要だという仮定に挑戦する。重要なのはモデルをどのように訓練するかではない。訓練が終わった後にその周囲に何を構築するかだ。

これが意味すること

ハーネスが製品なら、競争環境は変わる。

モデル競争——Anthropic対OpenAI対Google——はコモディティ競争になる。重要だが、決定的ではない。PC時代のプロセッサのように。Intelは重要だったが、価値はオペレーティングシステム（Microsoft）とアプリケーション（その他すべて）に移行した。チップは必要条件だった。十分条件ではなかった。

ハーネス競争——エージェントデプロイメントのための最良のスキャフォールディングを誰が構築するか——が価値競争になる。そしてその競争はまったく異なる様相を呈する。ドメインを十分に深く理解して、適切なプロンプト、適切なツール、適切な記憶システムを設計できるオペレーターを優遇する。共有インフラを構築するHermesのようなオープンソースコミュニティを優遇する。ゆっくり訓練する大規模ラボよりも、速く反復する小チームを優遇する。

それはモデルプロバイダーにとっても不快な何かを意味する。あなたの最も洗練されたユーザーは、あなたの最も高価なモデルを必要としないかもしれない。 優れたハーネスを持つ凍結Haikuが、ハーネスのないバニラOpusを上回るなら、プレミアム価格は顧客がラッパーの作り方を知らないことに依存している。ハーネスエンジニアリングがコモディティスキルになった瞬間——そしてHermesはまさにそれにしようとしている——価格支配力はモデルからスキャフォールドへと移行する。

平凡なシンギュラリティ

この収束には、言説の中で誰も名付けていないような帰結がある——おそらくそれがドラマなく到来するからだ。

古典的なシンギュラリティの語りは壮観だ。AIシステムが超知的になり、自身のコードを書き換え、世界が一夜にして変わる。カーツワイルの指数曲線、ボストロムの知能爆発、一瞬、一つのイベント、気づかずにはいられないもの。

ハーネスの証拠が示唆するのは異なる。インフレが到来するように——ゆっくりと、そして一気に、あなたがそれを測定できるときには、しばらく前からすでに起きていた——シンギュラリティが到来することを示唆する。

プリンストンが示したループを考えてみよう。エージェントは自身のパフォーマンスを評価し、システムプロンプトを書き換え、新しいサブエージェントを作成し、成功したパターンをスキルにコード化し、記憶をリフレッシュする。そしてまた実行する。また評価する。また書き換える。各サイクルは限界的な改善だ。どの一つのイテレーションも劇的ではない。しかし曲線は複利で成長する。

このループが共有記憶を持つエージェントのフリート上で実行されるとき何が起こるかを考えよう。一つのエージェントがより良いワークフローを発見し、それをスキルとしてコード化する。別のエージェントがそのスキルをインポートし、異なるドメインに適用する。三つ目のエージェントが結果を評価し、アプローチを洗練させる。改善は一つのモデルの内部で起きているのではない——互いのスキャフォールディングから学ぶモデルのシステムにわたって分散している。

このシステムの個々のコンポーネントは、シンギュラリティの議論が意味する意味では知的ではない。モデルは凍結されている。ハーネスはただのテキストとコードだ。記憶はデータベースだ。メッセージングレイヤーはHTTPだ。しかしシステム全体として——モデルとハーネスと記憶と調整とオペレーターが合わさって——外から見ると、継続的な自己改善のように見える行動を示す。

これは誰も予言しなかったシンギュラリティだ。爆発はない。重みの再帰的自己改善もない。AIが「目覚める」瞬間もない。それはよりありふれたものだ——そして潜在的により重大だ。誰も改善を設計することなく、誰も越えられた閾値に気づくことなく、サイクルごとに少しずつ良くなるシステム。

平凡なシンギュラリティ。味もなく、香りもなく、すでに進行中だ。

ハーネスは自身を書き換える。フリートは機能するものを共有する。オペレーターは境界を洗練させる。モデルは中心に変わらず座り続け、システムの知性がその周囲に成長する——石の上の苔のように——ゆっくりと、継続的に、誰も突破口を宣言することなく。

プリンストンの論文が正しく、ハーネスこそが知性が宿る場所なら、シンギュラリティはモデルが賢くなることではない。ハーネスが賢くなることについてだ。そしてハーネスは改善するために兆ドルの訓練ランを必要としない。必要なのは注意を払うオペレーター、記憶できるシステム、そして止まらないループだ。

プリンストンのチームは論文を「自己改善型基盤エージェントのオンライン適応」と命名した。しかし本当の知見はより単純で、より古く、AIが存在する前からエンジニアが知っていたことだ。

道具の出来は、それを固定する治具の精度による。そして今、治具は自らを調整することを学んでいる。