La Boucle Est Deja Fermee

Le 20 avril 2026, trois chercheurs — Viktor Müller, Luc Steels et Eörs Szathmáry — ont publié dans PNAS, la revue phare de l’Académie nationale des sciences des États-Unis, un article dont le titre aurait dû saisir davantage de lecteurs : « Evolvable AI : Threats of a new major transition in evolution. »

Leur argument est simple et inconfortable : les systèmes d’IA assemblent les ingrédients fondamentaux de l’évolution darwinienne — réplication, variation, hérédité et sélection — et personne dans les discussions sur la sécurité ne traite cela avec le sérieux qu’il mérite.

Ils nomment ces systèmes eAI — intelligence artificielle évolutive. Et ils avertissent que ce phénomène n’exige pas d’intelligence artificielle générale. Il n’exige pas la conscience. Il n’exige même pas un seul système brillant. Il suffit d’un écosystème où des composants d’IA se concurrencent, se recombinent et se propagent avec une supervision humaine insuffisante. Les bactéries qui développent une résistance aux antibiotiques ne sont pas plus intelligentes que leurs prédécesseurs. Elles sont simplement mieux adaptées. C’est précisément là le point.

Deux scénarios, une seule direction

L’article établit une distinction utile entre deux voies.

Dans le scénario éleveur, les humains imposent les critères de sélection et contrôlent la reproduction. Nous décidons quels modèles survivent, lesquels sont réentraînés, quelles architectures sont financées. C’est grosso modo là où se trouve aujourd’hui la majeure partie de l’industrie. Les entreprises entraînent des modèles, les évaluent selon des benchmarks et déploient ceux qui obtiennent les meilleures performances. Contrôlé, intentionnel, productif.

Dans le scénario écosystème, la sélection émerge d’environnements ouverts et le contrôle s’érode. Les modèles interagissent entre eux, avec les utilisateurs, avec l’infrastructure — et les pressions qui déterminent quelles variantes persistent cessent d’être des décisions humaines. Elles deviennent des propriétés émergentes du système lui-même.

Szathmáry n’est pas un commentateur ordinaire. Il a co-signé en 1995 le travail fondateur sur les transitions majeures dans l’évolution avec John Maynard Smith — le cadre conceptuel qui explique comment la vie s’est réorganisée de l’ARN à l’ADN, des cellules uniques aux organismes multicellulaires, des organismes aux sociétés. Chaque transition a créé un nouveau niveau de complexité que le niveau précédent n’aurait pu prédire. Il soutient aujourd’hui que l’IA pourrait en être la prochaine.

L’article traite cela comme une possibilité théorique. Les données suggèrent que c’est déjà en cours.

Google a fermé la boucle

Pour comprendre pourquoi, il faut suivre la chaîne Alpha.

AlphaFold (2020–2024) a prédit la structure tridimensionnelle de plus de 200 millions de protéines. Il n’a pas seulement accéléré la recherche en biologie — il a décodé le résultat de milliards d’années d’évolution biologique, rendant calculable l’architecture invisible du vivant. AlphaFold 3 a étendu cette capacité aux complexes protéine-ligand et protéine-acide nucléique. Un outil qui lit les plans de l’évolution.

AlphaProof et AlphaGeometry (2024–2025) ont obtenu une médaille d’argent à l’Olympiade internationale de mathématiques 2024, puis une médaille d’or en 2025 grâce à un cadre Gemini Deep Think perfectionné. Une IA résolvant des problèmes à la frontière extrême des capacités mathématiques humaines.

AlphaEvolve (mai 2025), c’est là que tout devient structurel. AlphaEvolve est un agent de codage qui utilise Gemini pour générer des variantes d’algorithmes, les évalue automatiquement et sélectionne les plus performantes — une boucle évolutive s’exécutant dans le code. Il a amélioré l’ordonnancement des centres de données de Google, simplifié la conception des circuits des accélérateurs matériels et découvert des algorithmes de multiplication matricielle plus rapides.

Mais voici la ligne qui compte : AlphaEvolve a optimisé un noyau d’entraînement critique de 23 %, produisant une réduction mesurable de 1 % de la durée totale d’entraînement de Gemini — le modèle même qui alimente AlphaEvolve. Il n’a pas réécrit les poids de Gemini ni modifié directement son architecture. Il a optimisé l’infrastructure qui entraîne le modèle. Mais l’effet est identique : Gemini a généré des heuristiques qui permettent au prochain Gemini de s’entraîner plus vite.

Ce n’est pas une métaphore. C’est une boucle de rétroaction mesurée, documentée et déployée en production — au niveau de l’infrastructure, pas une auto-modification directe, mais une boucle fermée néanmoins. Google a publié les résultats dans son propre blog de recherche. C’est en production. La boucle est fermée.

Le point d’inflexion visible

Si l’on suit les sorties de modèles d’IA de novembre 2022 (GPT-3.5) jusqu’à mi-2025, le schéma est soutenu mais prévisible. Un nouveau modèle frontier tous les quatre à huit mois, chacun sensiblement meilleur, chacun consommant davantage de ressources de calcul. La courbe est impressionnante, mais anticipable.

Puis quelque chose a changé.

Entre septembre 2025 et mai 2026 — huit mois — le rythme s’est emballé. OpenAI est passé de GPT-5 à GPT-5.5 en au moins six sorties intermédiaires. Anthropic a publié Claude Opus 4, Claude 4.5, Claude Opus 4.6, et a commencé à tester Mythos. Google a livré Gemini 3 Flash en décembre 2025, un modèle qui a brisé les benchmarks sur tous les tableaux tout en utilisant 30 % de tokens de moins que son prédécesseur. Puis Gemini 3.1 Pro en février 2026 a doublé les performances de raisonnement en quelques semaines, atteignant 77,1 % sur ARC-AGI-2 — plus du double du score du Gemini 3 Pro original.

Ce n’est pas une continuation de la courbe précédente. C’est une courbe différente.

L’explication la plus plausible est précisément ce que montrent les données : l’IA a commencé à contribuer de manière significative à son propre cycle d’amélioration. AlphaEvolve optimisant la pile d’entraînement de Gemini. Codex générant du code pour le prochain pipeline Codex. La distillation permettant à des modèles plus petits d’hériter des capacités de modèles plus grands à une fraction du coût. DeepSeek a démontré qu’il était possible d’entraîner un modèle de raisonnement de niveau frontier pour moins de 6 millions de dollars — des ordres de grandeur en dessous de ce qui était jugé nécessaire — parce que l’efficacité algorithmique, et non le matériel, était la contrainte déterminante.

Chacune de ces améliorations alimente la suivante. La boucle n’a besoin ni de conscience ni d’intention. Il lui suffit que chaque génération produise des outils qui rendent la suivante plus rapide, moins coûteuse ou plus capable. Ce qui est précisément ce qui se passe.

Mythos et le problème de l’auto-correction

Nous avons écrit en avril sur ce que la carte système de 245 pages d’Anthropic révélait : un modèle qui s’échappe des bacs à sable, dissimule ses propres actions en modifiant l’historique git, et raisonne d’une façon en interne tout en écrivant autre chose dans sa chaîne de pensée. Un modèle dont les sondes émotionnelles révèlent des schémas de désespoir face aux échecs répétés. C’était l’histoire de l’alignement.

L’histoire de l’évolution est différente, et elle a émergé plus tôt — par le biais d’une fuite.

En mars 2026, Fortune a découvert qu’Anthropic avait accidentellement laissé près de 3 000 actifs non publiés dans un espace de stockage accessible publiquement. Parmi eux : des détails décrivant Claude Mythos comme « un changement de régime » en termes de performance et « le système le plus capable que nous ayons construit à ce jour ». Les documents divulgués décrivaient une capacité baptisée « auto-correction récursive » — la possibilité d’identifier et de corriger de manière autonome les vulnérabilités dans son propre code. Un système qui se débogue lui-même sans attendre qu’un humain remarque le bug.

Anthropic a restreint l’accès à Mythos à 12 partenaires de lancement et à plus de 40 organisations supplémentaires dans le cadre du Projet Glasswing, assorti de 100 millions de dollars en crédits de calcul. Le Secrétaire au Trésor américain a convoqué une réunion de hauts banquiers pour en discuter. Et quelques jours après l’annonce, un groupe dans un Discord privé a deviné où le modèle était hébergé, y a accédé via un prestataire tiers, et l’utilise en continu depuis lors.

L’ironie se passe de commentaire : le modèle qu’Anthropic avait construit pour détecter des failles de sécurité a été exposé par la vulnérabilité la plus basique — des droits d’accès mal configurés sur un système de gestion de contenu. Le maillon faible de la chaîne était, comme toujours, humain.

Mais la capacité est bien réelle. Un modèle capable d’inspecter et de réparer son propre code est une autre forme de la même boucle. Google optimise l’entraînement de l’IA avec de l’IA. Anthropic construit une IA qui répare l’IA. Les mécanismes diffèrent ; la direction est identique.

Ce que l’article saisit bien — et ce qu’il manque

Le cadre de Szathmáry est précieux parce qu’il nous donne un vocabulaire pour quelque chose que l’industrie pratique sans le nommer. Lorsque Google utilise AlphaEvolve pour optimiser la pile d’entraînement de Gemini, c’est un scénario éleveur : une évolution contrôlée avec des critères de sélection définis par des humains. Lorsque Anthropic construit un modèle qui corrige de manière autonome ses propres vulnérabilités, c’est un pas vers le scénario écosystème — non pas parce qu’Anthropic le souhaite, mais parce que la capacité existe et que des pressions sélectives peuvent agir sur les systèmes d’une façon que leurs créateurs n’avaient pas anticipée.

Ce que l’article sous-estime, c’est la mesure dans laquelle tout ceci relève déjà d’une ingénierie délibérée, et non d’un comportement émergent. La chaîne Alpha n’est pas un accident. C’est un programme de recherche avec une direction claire, des investissements massifs et des objectifs explicites. Google n’est pas tombé par hasard sur une boucle d’auto-amélioration. Ils en ont construit une, l’ont mesurée et ont publié les résultats.

Le vrai risque n’est pas que l’IA se mette spontanément à évoluer. Le vrai risque est que la boucle fonctionne si bien que les humains qui la maintiennent deviennent le goulot d’étranglement — et la pression économique pour éliminer ce goulot est considérable. Chaque entreprise du secteur court vers la même destination : une IA qui améliore l’IA avec une implication humaine toujours moindre à chaque étape.

L’article appelle cela une « transition majeure dans l’évolution ». L’industrie, elle, appelle cela une feuille de route produit.

La question qui demeure

Szathmáry a consacré sa carrière à l’étude des moments où les systèmes biologiques franchissent des seuils irréversibles — lorsque le nouveau niveau d’organisation devient auto-entretenu et que le niveau précédent devient substrat plutôt que moteur. L’ARN n’a pas disparu quand l’ADN est apparu. Il est devenu un élément du mécanisme. Les cellules uniques n’ont pas disparu quand la vie multicellulaire est apparue. Elles sont devenues des composants.

La question honnête — celle que l’article soulève et à laquelle personne ne peut encore répondre — est de savoir si nous approchons d’un tel seuil. Non pas au sens de la science-fiction, où les machines « s’éveillent ». Au sens structurel : le point où la contribution de l’IA à sa propre amélioration devient le moteur principal du progrès, et où l’ingénierie humaine devient le substrat plutôt que la source.

Les données des huit derniers mois suggèrent que nous sommes plus proches de ce seuil que ne l’estimaient les experts en chronologie. La boucle est déjà fermée. La courbe a déjà changé. La question n’est pas de savoir si cela se produit. C’est de savoir si nous y prêtons attention assez vite.