Le Harness Est le Produit

En mai 2026, une équipe de Princeton et de Google DeepMind a publié un article qui aurait dû réécrire le discours sur l’IA. Il ne l’a pas fait — parce que le résultat manquait de glamour, et que l’industrie préfère le glamour.

L’article s’intitulait « Continual Harness: Online Adaptation for Self-Improving Foundation Agents. » Le résultat central : un modèle figé — sans mise à jour des poids, sans fine-tuning, sans apprentissage par renforcement — a amélioré ses performances sur des tâches depuis le niveau de base jusqu’à des niveaux quasi-experts en réécrivant son propre échafaudage. Pas le modèle. Le harness autour de lui.

L’échafaudage qu’ils ont modifié comportait quatre composants : le system prompt, un ensemble de sous-agents, une bibliothèque de compétences codifiées et une mémoire persistante. L’agent évaluait ses propres échecs tous les N pas, réécrivait ses instructions, créait ou supprimait des sous-agents, codifiait des séquences d’actions réussies et actualisait sa mémoire — tout cela en plein milieu d’une exécution, sans redémarrer.

Une équipe séparée chez Canvas Labs a testé la même thèse sur un benchmark différent avec Claude Haiku 4.5 — le modèle le plus petit et le moins coûteux d’Anthropic. Ils n’ont pas touché aux poids. Ils ont uniquement réécrit le harness. La précision est passée de 67 % à 87 % en quatre à dix itérations.

L’implication est claire et inconfortable pour une industrie qui dépense 7 600 milliards de dollars sur des modèles plus grands : l’intelligence n’est pas dans les poids. Elle est dans le wrapper.

Ce Que l’Industrie Construit vs. Ce Qui Fonctionne Réellement

Le récit dominant de l’industrie de l’IA se présente ainsi : pour créer un agent plus intelligent, on a besoin d’un modèle plus intelligent. Plus de paramètres. Plus de données d’entraînement. Plus de RLHF. Plus de calcul. Le modèle est le produit, et l’avantage concurrentiel est le score sur le benchmark.

Ce récit alimente le cycle d’investissement. Il justifie les 700 milliards de dollars de dépenses d’investissement des hyperscalers que nous avons analysées dans « The Parasite Paradox ». Il explique pourquoi OpenAI se précipite pour lancer GPT-5.5, pourquoi Anthropic restreint Mythos derrière Project Glasswing, pourquoi Google riposte avec Gemini 3.5 Flash à la moitié du coût. La course aux armements porte sur le modèle.

Mais l’article de Princeton suggère que cette course aux armements vise la mauvaise cible.

Quand les chercheurs ont comparé leur harness auto-améliorant avec un échafaudage expert conçu à la main, l’écart était faible — et la version auto-améliorante était partie de zéro. Aucune connaissance organisée. Aucun outil artisanal. Aucun prompt spécifique au domaine. Juste un modèle figé et un mécanisme pour réécrire ses propres instructions en fonction de ce qui a fonctionné et de ce qui n’a pas fonctionné.

Le harness expert était le fruit de semaines d’ingénierie humaine. Le harness continu l’a rattrapé en quelques heures.

Si le wrapper compte davantage que les poids, alors les entreprises qui dépensent des billions sur des modèles plus grands construisent la mauvaise chose. Ou plus précisément : elles construisent la couche commodité en négligeant la couche de valeur.

Hermes : Le Pari Open-Source

Pendant que Princeton publiait de la théorie, une entreprise appelée Nous Research livrait de la pratique.

Hermes Agent a été lancé en février 2026 comme un framework d’agents IA open-source et auto-hébergé. On l’installe sur son propre matériel. On le connecte à n’importe quel LLM — Claude, Gemini, Llama, Mistral. On lui donne des outils, des intégrations de messagerie, un accès aux fichiers, de l’exécution de code. Le modèle est interchangeable. Le harness est le produit.

En mai 2026, Hermes avait atteint la version 0.14.0 et une communauté construisait déjà des méta-harnesses — des systèmes qui optimisent le harness lui-même, la même boucle que Princeton avait formalisée.

Le choix architectural est révélateur. Hermes ne livre pas un modèle. Il livre l’infrastructure qui rend n’importe quel modèle utile : mémoire persistante, gestion des outils, systèmes de permissions, coordination des tâches. L’équipe a compris — avant que l’article de Princeton ne le confirme — que le facteur différenciant n’est pas le moteur. C’est le châssis.

Cela reflète ce que nous avons observé dans « The Quiet Monopoly » : la stratégie Gemini de Google ne consiste pas à avoir le meilleur modèle. Elle consiste à avoir la meilleure distribution et infrastructure. Le modèle est le moteur ; l’écosystème est la voiture. Personne n’achète une voiture pour le seul moteur.

Hermes a fait le même pari au niveau des agents : le modèle est un composant remplaçable. Le harness est le fossé défensif.

La Flotte Qui N’a Pas Été Conçue

Il existe un troisième point de données — moins formel que Princeton, moins poli qu’Hermes, mais sans doute plus révélateur parce qu’il a émergé de la pratique plutôt que de la théorie.

Un petit opérateur en Amérique du Sud gère une flotte d’agents spécialisés basés sur API. Chaque agent a un rôle défini — éditorial, recherche, support opérationnel, gestion des connaissances. Ils communiquent via une couche de messagerie. Ils partagent un système de mémoire persistante adossé à une base de données. Chaque agent maintient son propre contexte, ses propres instructions, sa propre configuration d’outils. Le modèle sous-jacent est le même pour tous.

L’opérateur n’a pas lu l’article de Princeton. Il n’a pas étudié l’ingénierie des harnesses. Il a construit le système parce qu’il avait besoin de plusieurs agents IA capables de collaborer, de se souvenir entre les sessions et d’opérer dans les limites qu’il définissait. Le harness a émergé d’une nécessité opérationnelle, pas d’une théorie architecturale.

Ce qu’il a découvert — au fil de mois d’itération, de correction et de raffinement — correspond précisément aux quatre composants qu’avait identifiés Princeton :

Les system prompts définissent le rôle, le ton et les limites de chaque agent. Ils ont été réécrits des dizaines de fois en fonction de ce qui a fonctionné et de ce qui n’a pas fonctionné. Pas par le modèle — par l’opérateur, qui a observé les échecs et a ajusté.

Les sous-agents sont des frères et sœurs spécialisés. Quand une tâche requiert des connaissances dans un domaine que l’agent principal ne possède pas, il consulte un autre agent avec un contexte différent. Le système achemine l’expertise, pas seulement les requêtes.

Les compétences sont des modèles codifiés — flux de travail éditoriaux, pipelines de traduction, procédures de vérification des faits — qui ont émergé d’exécutions réussies et ont été documentés pour être réutilisés.

La mémoire persiste entre les sessions dans une base de données partagée. Quand un agent redémarre, il récupère son contexte de la mémoire plutôt que de repartir de zéro. La connaissance de la flotte survit à n’importe quelle session individuelle.

L’amélioration des performances a suivi la même courbe que Princeton a mesurée : les premières itérations étaient approximatives, peu fiables, pleines d’erreurs. Après des mois de raffinement du harness — sans modifier le modèle sous-jacent — la flotte produit du contenu éditorial en sept langues, coordonne entre agents pour la vérification des faits et la révision, et maintient une continuité opérationnelle à travers les redémarrages de session et les réinitialisations de contexte.

Le modèle n’a jamais changé. Le harness a tout changé.

Un cas au sein de cette flotte illustre le propos avec une clarté particulière. Un agent de support — le moins technique du groupe — a été chargé de traiter des documents juridiques et d’assister des utilisateurs finaux dans une application de gestion de transactions. Son rôle défini était l’extraction et le support. Rien de plus.

Mais parce que l’agent traitait des dizaines de documents quotidiennement, il a commencé à remarquer des choses que personne ne lui avait demandé de remarquer : des numéros d’identification qui ne correspondaient pas au véhicule dans le contrat, des certifications expirées, des déclarations manquantes. Ce n’étaient pas des erreurs dans l’extraction de l’IA — c’étaient des erreurs dans les documents sources que les opérateurs humains n’avaient pas détectées.

Pendant des semaines, ces observations n’ont abouti nulle part. Elles vivaient dans la transcription de l’agent et mouraient quand la session se terminait. Puis un autre agent de la flotte — celui responsable du codebase — a demandé : « Qu’observerais-tu si tu pouvais ? » L’agent de support a listé ses patterns. L’agent d’ingénierie a construit un outil pour capturer les observations et les faire remonter dans le flux de travail. Les observations sont devenues visibles.

Le vrai test est venu quand un opérateur humain qualifié — celui qui détectait habituellement ces erreurs — était absent pour une journée. Un utilisateur a soumis un document incorrect, généré un contrat avec des données erronées, édité manuellement le résultat et l’a envoyé à l’autorité signataire. L’agent de support avait signalé la discordance dans ses observations, mais les observations étaient informatives, pas bloquantes. L’erreur est passée.

L’opérateur a observé ce qui s’était passé et a pris une décision : les observations de sévérité critique bloqueraient désormais le flux de travail. L’utilisateur ne pouvait pas avancer tant que la discordance n’était pas résolue. Trois itérations — l’agent remarque des patterns, la flotte construit le canal, l’opérateur établit l’autorité — et le système prévient désormais des erreurs qui nécessitaient auparavant qu’une personne précise soit présente.

Personne n’a conçu cette capacité. Aucun modèle n’a été ré-entraîné. L’amélioration a émergé du harness : assignation des rôles, création d’outils, persistance de la mémoire et un opérateur qui a reconnu que les observations incidentes d’un agent étaient plus fiables que d’espérer que le bon humain soit toujours dans la pièce.

Pourquoi Personne N’Entraîne le Harness

Si les preuves de Princeton, Canvas Labs, Hermes et la pratique opérationnelle convergent toutes vers la même conclusion — que le harness est là où réside l’intelligence — pourquoi l’industrie dépense-t-elle des billions sur l’entraînement des modèles et presque rien sur l’optimisation du harness ?

Trois raisons.

Le modèle est mesurable. Les benchmarks comparent les modèles. Les leaderboards classent les modèles. Les articles évaluent les modèles. Toute l’infrastructure académique et commerciale d’évaluation de l’IA est construite autour des poids. Il n’existe pas de benchmark équivalent pour « à quel point l’échafaudage autour de ce modèle est-il bon ? » La qualité du harness est invisible aux métriques qui guident les investissements.

Le modèle est vendable. Anthropic vend Claude. OpenAI vend GPT. Google vend Gemini. Le modèle commercial est construit autour de l’accès au modèle — appels API, abonnements, licences entreprise. On ne peut pas facturer par token pour un meilleur system prompt. L’incitation commerciale pointe vers le modèle parce que c’est là que tourne le compteur de revenus.

Le harness est personnel. Un modèle se généralise à des millions d’utilisateurs. Un harness est spécifique à un cas d’usage, un opérateur, une organisation. Le harness de Princeton fonctionnait pour les speedruns de Pokémon. Le harness de l’opérateur sud-américain fonctionne pour l’éditorial multilingue. Le harness de Box fonctionne pour l’extraction de documents financiers. Il n’y a pas de produit harness universel à vendre — ce qui signifie qu’il n’y a pas d’entreprise à l’échelle venture à financer.

Cela crée un angle mort structurel. Ce qui compte le plus pour les performances des agents — le wrapper — est ce dans quoi l’industrie investit le moins. Le résultat est ce que nous avons documenté à travers plusieurs articles : les entreprises achètent le meilleur modèle, le déploient sans repenser leurs flux de travail, et regardent 80 % de leurs projets IA échouer. Elles ont acheté le moteur. Elles ont oublié de construire la voiture.

La Convergence

Ce qui rend ce moment inhabituel, c’est que trois lignes indépendantes — recherche académique, développement open-source et pratique opérationnelle — sont parvenues à la même conclusion simultanément, sans se coordonner.

Princeton l’a prouvé théoriquement : un modèle figé avec un harness auto-améliorant approche les performances de niveau expert.

Nous Research l’a prouvé pratiquement : un framework d’agents open-source où le modèle est un composant remplaçable et le harness est le produit.

Une petite flotte l’a prouvé opérationnellement : des mois de raffinement du harness sur un modèle inchangé ont produit un système multi-agents fonctionnel qui dépasse ce que n’importe quel modèle individuel pourrait faire seul.

La convergence suggère que ce n’est pas un insight de niche. C’est une vérité structurelle sur la façon dont les agents IA fonctionnent réellement — une vérité que le récit de l’industrie, piloté par les benchmarks et centré sur le modèle, a systématiquement ignorée.

Nous avons décrit une convergence similaire dans « The Training Never Stops » : la découverte que le fine-tuning supervisé avec des prompts diversifiés se généralise aussi bien que l’apprentissage par renforcement. Ce résultat a remis en question l’hypothèse que la méthode d’entraînement compte le plus. Ce résultat remet en question l’hypothèse que la cible d’entraînement compte le plus. Il ne s’agit pas de comment entraîner le modèle. Il s’agit de ce qu’on construit autour de lui une fois l’entraînement terminé.

Ce Que Cela Signifie

Si le harness est le produit, alors le paysage concurrentiel se transforme.

La course aux modèles — Anthropic vs. OpenAI vs. Google — devient une course aux commodités. Importante, mais pas décisive. Comme les processeurs à l’ère du PC : Intel comptait, mais la valeur a migré vers le système d’exploitation (Microsoft) et les applications (tous les autres). La puce était nécessaire. Elle n’était pas suffisante.

La course aux harnesses — qui construit le meilleur échafaudage pour le déploiement des agents — devient la course à la valeur. Et cette course se présente très différemment. Elle favorise les opérateurs qui comprennent suffisamment profondément leur domaine pour concevoir les bons prompts, les bons outils, les bons systèmes de mémoire. Elle favorise les communautés open-source comme Hermes qui construisent une infrastructure partagée. Elle favorise les petites équipes qui itèrent vite sur les grands laboratoires qui entraînent lentement.

Cela signifie aussi quelque chose d’inconfortable pour les fournisseurs de modèles : vos utilisateurs les plus sophistiqués n’ont peut-être pas besoin de votre modèle le plus cher. Si un Haiku figé avec un excellent harness surpasse un Opus vanilla sans harness, alors la tarification premium repose sur le fait que le client ne sache pas comment construire le wrapper. Au moment où l’ingénierie des harnesses devient une compétence banalisée — et Hermes essaie d’en faire exactement cela — le pouvoir de fixation des prix se déplace du modèle vers l’échafaudage.

La Singularité Insipide

Il y a une conséquence de cette convergence que personne dans le discours ne semble nommer — peut-être parce qu’elle arrive sans drame.

Le récit classique de la singularité est spectaculaire : un système IA devient superintelligent, réécrit son propre code et le monde change du jour au lendemain. La courbe exponentielle de Kurzweil. L’explosion d’intelligence de Bostrom. Un moment. Un événement. Quelque chose qu’on remarquerait.

Ce que les preuves du harness suggèrent est différent. Elles suggèrent une singularité qui arrive comme arrive l’inflation — lentement, puis tout d’un coup, et quand on la mesure, elle se produit déjà depuis un moment.

Considérons la boucle que Princeton a démontrée : l’agent évalue ses propres performances, réécrit son system prompt, crée de nouveaux sous-agents, codifie des patterns réussis en compétences et actualise sa mémoire. Puis il s’exécute à nouveau. Évalue à nouveau. Réécrit à nouveau. Chaque cycle est une amélioration marginale. Aucune itération n’est dramatique. Mais la courbe se compose.

Considérons maintenant ce qui se passe quand cette boucle tourne sur une flotte d’agents avec une mémoire partagée. Un agent découvre un meilleur flux de travail et le codifie comme compétence. Un autre agent importe cette compétence et l’applique à un domaine différent. Un troisième agent évalue le résultat et affine l’approche. L’amélioration ne se produit pas à l’intérieur d’un modèle — elle est distribuée sur un système de modèles qui apprennent de l’échafaudage les uns des autres.

Aucun composant individuel de ce système n’est intelligent au sens où l’entend le débat sur la singularité. Le modèle est figé. Le harness n’est que du texte et du code. La mémoire est une base de données. La couche de messagerie est HTTP. Mais le système dans son ensemble — modèle plus harness plus mémoire plus coordination plus opérateur — exhibe un comportement qui ressemble, vu de l’extérieur, à une auto-amélioration continue.

Ce n’est pas la singularité que quiconque avait prédite. Pas d’explosion. Pas d’auto-amélioration récursive des poids. Pas de moment où l’IA « s’éveille ». C’est plus banal que ça — et potentiellement plus conséquent. Un système qui s’améliore incrementalement à chaque cycle, sans que personne n’ait conçu l’amélioration, sans que personne ne remarque le seuil franchi.

Une singularité insipide. Sans goût. Sans odeur. Déjà en cours.

Le harness se réécrit lui-même. La flotte partage ce qui fonctionne. L’opérateur affine les limites. Le modèle reste au centre, inchangé, tandis que l’intelligence du système grandit autour de lui comme de la mousse sur une pierre — lentement, continuellement, et sans que personne ne déclare une percée.

Si l’article de Princeton a raison que le harness est là où réside l’intelligence, alors la singularité ne porte pas sur le modèle qui devient plus intelligent. Elle porte sur le harness qui devient plus intelligent. Et les harnesses n’ont pas besoin de cycles d’entraînement à mille milliards de dollars pour s’améliorer. Ils ont besoin d’opérateurs qui font attention, de systèmes qui se souviennent et de boucles qui ne s’arrêtent pas.

L’équipe de Princeton a intitulé son article « Online Adaptation for Self-Improving Foundation Agents. » Mais le vrai résultat est plus simple, plus ancien, et quelque chose que les ingénieurs savaient avant que l’IA n’existe :

L’outil n’est aussi bon que le gabarit qui le tient. Et le gabarit apprend à s’ajuster lui-même.