Le Transformer n'est pas mort — c'est son monopole qui l'est

Et la vraie course n’est plus une question de GPUs.

Tous les grands modèles d’IA que vous utilisez aujourd’hui — ChatGPT, Claude, Gemini, Grok — reposent sur la même architecture fondamentale : le Transformer. Introduite en 2017 par le célèbre article de Google “Attention Is All You Need”, elle domine l’IA depuis près d’une décennie grâce à une idée aussi simple qu’élégante : laisser chaque mot d’une séquence interagir simultanément avec tous les autres.

Ça a marché. Brillamment.

Mais cette brillance a un coût. L’attention croît de façon quadratique avec la longueur des séquences. Doublez la fenêtre de contexte, quadruplez le calcul. À 100 000 tokens, le coût devient une vraie contrainte. À un million, il devient prohibitif. Et entraîner un modèle frontier from scratch — ce type de mise à l’échelle à la force brute qui nous a donné GPT-4 et Claude Opus — coûte aujourd’hui des centaines de millions de dollars par run.

La réponse actuelle de l’industrie IA à ce problème est simple : jeter davantage de matériel dessus. Plus de H100s. Des clusters plus grands. Des datacenters plus imposants. Plus d’énergie.

Mais et si la réponse n’était pas plus de GPUs ? Et si c’était une meilleure architecture ?

Les challengers

Au cours des deux dernières années, une famille d’architectures alternatives a tranquillement mûri, passant de la curiosité académique à la réalité prête pour la production. Elles partagent une thèse commune : le mécanisme d’attention quadratique du Transformer n’est pas seulement coûteux — il est superflu pour bon nombre de choses que nous demandons à l’IA d’accomplir.

Mamba, présenté fin 2023 par Albert Gu et Tri Dao, a abandonné entièrement l’attention au profit d’espaces d’états sélectifs — un mécanisme emprunté à la théorie du contrôle qui traite les séquences en temps linéaire. Un modèle Mamba-3B surpasse les Transformers de même taille et rivalise avec des modèles deux fois plus grands. En mars 2026, Mamba atteint la version 3, publiée à ICLR 2026, avec une conception pensée pour l’inférence qui atteint une perplexité comparable à Mamba-2 avec la moitié de la taille d’état.

Titans, de Google Research (Ali Behrouz et al., décembre 2024), a introduit un module de mémoire à long terme neuronal qui apprend à mémoriser en fonction de la surprise — les événements qui contredisent les attentes sont stockés de façon plus persistante. Présenté à NeurIPS 2025, Titans a été mis à l’échelle jusqu’à des fenêtres de contexte dépassant 2 millions de tokens avec une meilleure précision que les Transformers sur les tâches de type “aiguille dans une botte de foin”.

Infini-Attention (Google, avril 2024) a étendu le Transformer vers un contexte effectivement infini en compressant les informations passées dans une banque de mémoire persistante, suggérant que le Transformer pourrait muter plutôt que disparaître.

La prédiction multi-token (Meta, 2024) s’est attaquée à un autre présupposé : au lieu de prédire un token à la fois, en prédire plusieurs simultanément. DeepSeek-V3 a adopté cette technique, avec des gains d’efficacité substantiels à la clé.

Aucune de ces approches n’est une solution miracle. Chacune répond à une limitation différente. Mais ensemble, elles brossent un tableau clair : l’ère du Transformer comme seule architecture viable est révolue.

Des papiers à la production

Ce n’est plus de la théorie. Les modèles hybrides — des architectures qui combinent l’attention du Transformer avec des couches SSM — sont déjà en production :

Nemotron-H de NVIDIA a remplacé 92 % des couches d’attention par des blocs Mamba2, offrant jusqu’à 3x le débit par rapport aux Transformers purs comme LLaMA-3.1 et Qwen-2.5, tout en égalant ou dépassant la précision sur les benchmarks standard. Open source.
Jamba 1.5 d’AI21 a mis à l’échelle une architecture hybride Transformer-Mamba-MoE jusqu’à 398 milliards de paramètres au total, avec 94 milliards actifs, supportant des fenêtres de contexte de 256K tokens. Le ratio : une couche Transformer pour sept couches Mamba.
Phi-4-mini-flash-reasoning de Microsoft a introduit SambaY, une architecture décodeur-hybride-décodeur combinant Mamba, une attention à fenêtre glissante et une nouvelle Gated Memory Unit. Avec 3,8 milliards de paramètres, il atteint des performances comparables à des modèles deux fois plus grands — avec un débit 10x supérieur.
Bamba-9B d’IBM a réduit la taille du modèle de 18 Go à 9 Go par quantification, tout en maintenant des performances comparables à LLaMA-3.1 8B.

Le constat est constant : les architectures hybrides atteignent la précision des Transformers à une fraction du coût d’inférence, en particulier pour les longues séquences. Le consensus qui émerge dans la communauté de recherche n’est pas “Transformers contre SSMs” — c’est “de combien d’attention avez-vous vraiment besoin, et à quel endroit ?”

Le tournant plus profond : un apprentissage qui ne s’arrête plus

Une inférence plus rapide et un entraînement moins coûteux, c’est important. Mais la ligne de recherche la plus radicale pointe vers tout autre chose.

Les modèles de langage actuels ont une limitation fondamentale : ils sont figés après l’entraînement. Leurs connaissances se bloquent à une date de coupure. Leurs poids ne se mettent pas à jour quand vous les utilisez. Chaque conversation repart du même instantané gelé du monde. C’est comme avoir un collègue doté d’une mémoire parfaite de tout ce qu’il a lu à l’école — mais qui n’a rien appris depuis l’obtention de son diplôme.

Nested Learning, publié par Google Research à NeurIPS 2025 (Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni — la même équipe derrière Titans), propose quelque chose de presque hérétique : la distinction entre l’architecture d’un modèle et son algorithme d’entraînement est une illusion. Ce sont la même chose — des niveaux d’optimisation imbriqués, chacun avec son propre flux d’information et sa propre fréquence de mise à jour.

La conséquence pratique : il est possible de concevoir des modèles avec un système de mémoire en continuum — des modules qui se mettent à jour à des rythmes différents. Certains se mettent à jour à chaque token (mémoire de travail, rapide). D’autres évoluent lentement, consolidant les connaissances sur des milliers d’étapes (mémoire à long terme). Le modèle ne se contente pas de traiter les données — il en apprend continuellement, à plusieurs échelles de temps simultanément.

Leur architecture de preuve de concept, Hope, est un modèle récurrent auto-modifiant qui peut littéralement apprendre ses propres règles de mise à jour pendant l’inférence. Il surpasse les Transformers et Titans en modélisation du langage, en raisonnement de bon sens et sur les tâches à long contexte.

Puis en mai 2025, la même équipe a publié ATLAS, qui a introduit les DeepTransformers — une généralisation stricte de l’architecture Transformer originale avec une mémoire optimisée. ATLAS a atteint plus de 80 % de précision sur 10 millions de tokens de contexte sur le benchmark BABILong. Dix millions de tokens. C’est environ 15 000 pages de texte.

Une seule équipe, au sein de Google Research, publie trois papiers en un an, chacun s’appuyant sur le précédent. Ce n’est pas une production académique éparpillée. C’est un programme de recherche.

Le concept qui change les équilibres économiques

C’est là que les choses deviennent intéressantes pour quiconque s’intéresse à l’économie de l’IA — ce qui devrait concerner tout le monde.

Entraîner un modèle frontier aujourd’hui est un événement. Une combustion massive et concentrée de puissance de calcul qui coûte des centaines de millions de dollars et prend des mois. Si vous voulez un meilleur modèle, vous repartez largement de zéro. Chaque amélioration nécessite un nouvel investissement colossal en amont.

Nested Learning propose un modèle différent : distribuer l’apprentissage dans le temps. Au lieu de brûler toute votre puissance de calcul d’un seul coup dans un unique run d’entraînement, faites en sorte que le modèle s’améliore en continu à mesure qu’il opère. Chaque cycle d’inférence devient une petite étape d’apprentissage. Le coût de l’amélioration passe d’une dépense en capital massive à un flux opérationnel distribué.

Cela ne supprime pas l’entraînement. Vous avez toujours besoin d’un modèle de base solide. Mais cela change fondamentalement l’économie du maintien de ce modèle à jour, pertinent et en progression.

Et ce concept — apprendre par l’itération, pas seulement par l’exécution — fait déjà son apparition dans les produits, même si l’implémentation sous-jacente n’utilise pas encore directement ces architectures.

Là où ça se passe déjà

Jitro de Google — le nom de code interne de Jules V2, leur agent de codage de nouvelle génération — a été révélé il y a quelques jours. Son positionnement : “Écrire manuellement vos prompts pour vos agents, c’est tellement… 2025.” Au lieu de définir des tâches précises, les développeurs fixent des objectifs de haut niveau — améliorer la couverture de tests, réduire la latence, augmenter la conformité en accessibilité — et l’agent identifie de façon autonome ce qui doit changer dans la base de code et itère vers la cible. Il dispose de son propre espace de travail persistant. Il maintient des objectifs, des insights et des historiques de mise à jour. Il n’exécute pas une fois puis oublie — il opère en boucle, en s’appuyant sur les itérations précédentes.

GLM-5.1 de Zhipu, publié il y a deux jours, va encore plus loin. Le modèle peut gérer de façon autonome une seule tâche de codage pendant jusqu’à huit heures — planifiant, exécutant, testant et optimisant dans une boucle continue. Leur papier technique décrit de nouveaux algorithmes Agent RL asynchrones spécifiquement conçus pour apprendre à partir d’interactions à long horizon. Le modèle a été entraîné entièrement sur des puces Huawei Ascend — sans aucun matériel NVIDIA — et son API coûte environ 5 à 8 fois moins que les modèles frontier occidentaux comparables.

Aucun de ces produits n’est confirmé comme utilisant Nested Learning ou les architectures Hope sous le capot. Ils utilisent peut-être des Transformers avec un échafaudage sophistiqué — frameworks d’agents, chaînes d’outils, bases de données d’état externes. Mais le concept est le même : des modèles qui itèrent, retiennent et s’autocorrigent dans le temps, plutôt que des modèles qui répondent à un prompt unique puis oublient.

L’approche par échafaudage fonctionne. Mais elle est fragile et coûteuse. Une architecture qui fait cela nativement — qui apprend en continu par conception plutôt que par ingénierie externe — serait fondamentalement plus efficace. Et c’est exactement ce que Google Research est en train de construire.

Le lien avec ai-2027.com

Cette trajectoire s’aligne précisément avec le scénario cartographié par ai-2027.com — la feuille de route AGI détaillée de l’ex-chercheur d’OpenAI Daniel Kokotajlo et de Scott Alexander. Leur chronologie décrit des agents IA qui automatisent progressivement la recherche en IA elle-même : chaque génération d’agents aide à construire la suivante, plus vite et à moindre coût.

À mi-2026 dans leur scénario, l’IA atteint un multiplicateur de recherche de 1,5x — une semaine de travail assisté par agent produit ce qui prenait auparavant 1,5 semaine. En mars 2027, des “codeurs surhumains” émergent. Fin 2027, le multiplicateur atteint 50x.

Pour que ce scénario se concrétise, il faut exactement ce que Nested Learning décrit : des modèles qui n’exécutent pas seulement des instructions mais apprennent de leurs propres itérations. Des modèles où chaque cycle de travail rend le suivant légèrement meilleur. Des modèles qui ferment la boucle entre action et amélioration.

Les entreprises qui résolvent cela en premier — qui font de chaque cycle d’inférence une étape d’apprentissage — sont celles qui pourront surfer sur l’exponentielle. Celles qui continuent à brûler des centaines de millions par run d’entraînement achètent des billets de loterie.

Qui est bien positionné et qui est exposé

Google dispose à la fois de la recherche fondamentale (l’équipe de Behrouz : Titans → Nested Learning → Hope → ATLAS) et des produits qui en ont besoin (Jitro, Gemini). Ils ont un capital patient, la propriété de l’infrastructure, et aucune pression existentielle à monétiser immédiatement chaque percée. Ils peuvent se permettre de laisser cette recherche mûrir.

Les laboratoires chinois — notamment Zhipu (GLM-5.1) et DeepSeek — prouvent que la contrainte engendre l’innovation. S’entraînant sur du matériel domestique à une fraction des coûts occidentaux, ils atteignent 95 % des performances frontier à 15 % du prix. Les boucles de codage autonome de 8 heures de GLM-5.1 ne sont pas un gadget — c’est la démonstration que l’opération continue est viable dès aujourd’hui.

OpenAI et Anthropic restent concentrés sur la mise à l’échelle du paradigme Transformer. Des modèles plus grands, plus de puissance de calcul, des prix d’abonnement plus élevés. Cela fonctionne tant que la force brute garde une longueur d’avance sur l’efficacité. Mais à mesure que la qualité des modèles converge — et elle converge — l’avantage se déplace de celui qui a le plus de H100s à celui qui a la meilleure architecture.

La vraie frontière n’est plus le meilleur score sur un benchmark. C’est la meilleure boucle d’apprentissage.

Ce que ça signifie pour vous

Si vous payez 20 $/mois pour un abonnement IA, voici ce qui compte : le modèle que vous utilisez aujourd’hui a été figé il y a des mois. Il n’apprend pas de vos conversations. Il ne s’améliore pas de ses erreurs. Chaque session repart de zéro.

La prochaine génération d’IA ne fonctionnera pas comme ça. Des modèles qui apprennent en continu, qui s’améliorent par l’usage, qui distribuent leur coût d’entraînement dans le temps au lieu de le concentrer dans un unique burn massif — ils arrivent. Ils seront plus rapides, moins coûteux à faire tourner, et plus capables au fil du temps plutôt que statiques.

La question est de savoir qui les construira en premier, et si vous devrez payer 200 $/mois pour ce qui devrait coûter 20 $ — ou si la concurrence des laboratoires chinois forcera les prix à refléter les coûts réels.

On sera là pour suivre ça. C’est à ça que servent les vendredis.

Ceci est le premier numéro de la série du vendredi de The Frontier View — un regard hebdomadaire sur la recherche et les applications qui façonnent le prochain chapitre de l’IA. Les publications du mercredi et du dimanche continuent avec notre analyse éditoriale habituelle.

Sources

Papiers référencés :

Mamba (Gu & Dao, 2023): arXiv 2312.00752
Mamba-2 / State Space Duality (Dao & Gu, 2024): arXiv 2405.21060
Mamba-3 (Lahoti et al., 2026): arXiv 2603.15569 — ICLR 2026
Titans (Behrouz et al., 2024): arXiv 2501.00663 — NeurIPS 2025
Nested Learning (Behrouz et al., 2025): arXiv 2512.24695 — NeurIPS 2025
ATLAS (Behrouz et al., 2025): arXiv 2505.23735
Infini-Attention (Google, 2024): arXiv 2404.07143
Multi-token Prediction (Meta, 2024): arXiv 2404.19737
DeepSeek-V3 (2024): arXiv 2412.19437
GLM-5 Technical Report (Zhipu/Tsinghua, 2026): arXiv 2602.15763

Produits et annonces :

Jitro / Jules V2: testingcatalog.com, April 6, 2026
GLM-5.1: techbriefly.com, April 8, 2026
Nemotron-H: NVIDIA, open-sourced via Hugging Face
Jamba 1.5: AI21 Labs
Phi-4-mini-flash-reasoning / SambaY: Microsoft, July 2025
ai-2027.com scenario: Daniel Kokotajlo & Scott Alexander