Il Transformer non è morto — è il suo monopolio che lo è

E la vera gara non riguarda più chi ha più GPU.

Tutti i grandi modelli AI che usi oggi — ChatGPT, Claude, Gemini, Grok — girano sulla stessa architettura fondamentale: il Transformer. Introdotta nel 2017 dal celebre paper di Google “Attention Is All You Need”, domina l’AI da quasi un decennio grazie a un’idea tanto semplice quanto elegante: lasciare che ogni parola di una sequenza interagisca simultaneamente con tutte le altre.

Ha funzionato. Brillantemente.

Ma quella brillantezza ha un prezzo. L’attention scala in modo quadratico con la lunghezza della sequenza. Raddoppi la finestra di contesto, quadruplichi il calcolo. A 100.000 token, il costo diventa un vero vincolo. A un milione di token, diventa proibitivo. E addestrare un modello frontier from scratch — quel tipo di scaling a forza bruta che ci ha dato GPT-4 e Claude Opus — costa oggi centinaia di milioni di dollari per run.

La risposta attuale dell’industria AI a questo problema è semplice: buttarci sopra più hardware. Più H100. Cluster più grandi. Datacenter più vasti. Più energia.

Ma e se la risposta non fossero più GPU? E se fosse un’architettura migliore?

Gli sfidanti

Negli ultimi due anni, una famiglia di architetture alternative è maturata silenziosamente, passando dalla curiosità accademica alla realtà pronta per la produzione. Condividono una tesi comune: il meccanismo di attention quadratica del Transformer non è solo costoso — è superfluo per molte delle cose che chiediamo all’AI di fare.

Mamba, presentato a fine 2023 da Albert Gu e Tri Dao, ha sostituito completamente l’attention con spazi di stato selettivi — un meccanismo preso in prestito dalla teoria del controllo che elabora le sequenze in tempo lineare. Un modello Mamba-3B supera i Transformer della stessa dimensione e compete con quelli due volte più grandi. A marzo 2026, Mamba ha raggiunto la versione 3, pubblicata a ICLR 2026, con un design pensato per l’inference che raggiunge una perplexity paragonabile a Mamba-2 usando metà della dimensione dello stato.

Titans, di Google Research (Ali Behrouz et al., dicembre 2024), ha introdotto un modulo di memoria a lungo termine neurale che impara a memorizzare in base alla sorpresa — gli eventi che violano le aspettative vengono memorizzati in modo più persistente. Presentato a NeurIPS 2025, Titans si è scalato fino a finestre di contesto oltre i 2 milioni di token con una precisione migliore dei Transformer nei task di tipo “ago nel pagliaio”.

Infini-Attention (Google, aprile 2024) ha esteso il Transformer verso un contesto effettivamente infinito comprimendo le informazioni passate in una banca di memoria persistente, suggerendo che il Transformer potrebbe mutare piuttosto che scomparire.

La predizione multi-token (Meta, 2024) ha attaccato un presupposto diverso: invece di predire un token alla volta, predirne diversi simultaneamente. DeepSeek-V3 ha adottato questa tecnica, con guadagni di efficienza sostanziali.

Nessuna di queste è una soluzione universale. Ciascuna affronta un limite diverso. Ma insieme dipingono un quadro chiaro: l’era del Transformer come unica architettura praticabile è finita.

Dai paper alla produzione

Non è più teoria. I modelli ibridi — architetture che combinano l’attention del Transformer con layer SSM — sono già in produzione:

Nemotron-H di NVIDIA ha sostituito il 92% dei layer di attention con blocchi Mamba2, offrendo fino a 3x il throughput rispetto a Transformer puri come LLaMA-3.1 e Qwen-2.5, eguagliando o superando la precisione sui benchmark standard. Open source.
Jamba 1.5 di AI21 ha scalato un’architettura ibrida Transformer-Mamba-MoE fino a 398 miliardi di parametri totali con 94 miliardi attivi, supportando finestre di contesto da 256K token. Il rapporto: un layer Transformer ogni sette layer Mamba.
Phi-4-mini-flash-reasoning di Microsoft ha introdotto SambaY, un’architettura decoder-ibrido-decoder che combina Mamba, sliding window attention e una nuova Gated Memory Unit. Con 3,8 miliardi di parametri, ha raggiunto prestazioni paragonabili a modelli due volte più grandi — con un throughput 10x superiore.
Bamba-9B di IBM ha ridotto le dimensioni del modello da 18 GB a 9 GB tramite quantizzazione, mantenendo prestazioni paragonabili a LLaMA-3.1 8B.

Il pattern è costante: le architetture ibride eguagliano la precisione dei Transformer a una frazione del costo di inference, specialmente per sequenze lunghe. Il consenso che si sta formando nella comunità di ricerca non è “Transformer contro SSM” — è “quanta attention ti serve davvero, e dove?”

Il cambiamento più profondo: un apprendimento che non si ferma

Inference più veloce e training meno costoso sono importanti. Ma la linea di ricerca più radicale punta da tutt’altra parte.

I modelli linguistici odierni hanno un limite fondamentale: sono statici dopo il training. Le loro conoscenze si cristallizzano a una data di cutoff. I loro pesi non si aggiornano quando li usi. Ogni conversazione riparte dallo stesso istantaneo congelato del mondo. È come avere un collega con una memoria perfetta di tutto ciò che ha letto a scuola — ma che non ha imparato una singola cosa dalla laurea in poi.

Nested Learning, pubblicato da Google Research a NeurIPS 2025 (Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni — lo stesso team dietro Titans), propone qualcosa di quasi eretico: la distinzione tra l’architettura di un modello e il suo algoritmo di training è un’illusione. Sono la stessa cosa — livelli di ottimizzazione annidati, ciascuno con il proprio flusso di informazioni e la propria frequenza di aggiornamento.

La conseguenza pratica: è possibile progettare modelli con un sistema di memoria a continuum — moduli che si aggiornano a velocità diverse. Alcuni si aggiornano a ogni token (memoria di lavoro, rapida). Altri si aggiornano lentamente, consolidando le conoscenze nel corso di migliaia di passi (memoria a lungo termine). Il modello non si limita a elaborare dati — impara continuamente da essi, a più scale temporali simultaneamente.

La loro architettura proof-of-concept, Hope, è un modello ricorrente auto-modificante che può letteralmente imparare le proprie regole di aggiornamento durante l’inference. Ha superato Transformer e Titans nella modellazione del linguaggio, nel ragionamento di buon senso e nei task a lungo contesto.

Poi, nel maggio 2025, lo stesso team ha pubblicato ATLAS, che ha introdotto i DeepTransformers — una generalizzazione rigorosa dell’architettura Transformer originale con memoria ottimizzata. ATLAS ha raggiunto oltre l’80% di precisione su 10 milioni di token di contesto sul benchmark BABILong. Dieci milioni di token. Circa 15.000 pagine di testo.

Un solo team, all’interno di Google Research, pubblica tre paper in un anno, ciascuno che si fonda sul precedente. Non è produzione accademica dispersiva. È un programma di ricerca.

Il concetto che cambia l’economia

È qui che le cose diventano interessanti per chiunque si occupi del business dell’AI — il che dovrebbe riguardare tutti.

Addestrare un modello frontier oggi è un evento. Una combustione massiccia e concentrata di potenza di calcolo che costa centinaia di milioni di dollari e richiede mesi. Se vuoi un modello migliore, ricomincia quasi da capo. Ogni miglioramento richiede un nuovo investimento iniziale enorme.

Nested Learning propone un modello diverso: distribuire l’apprendimento nel tempo. Invece di bruciare tutta la potenza di calcolo in un unico run di training, fare in modo che il modello migliori continuamente mentre opera. Ogni ciclo di inference diventa un piccolo passo di apprendimento. Il costo del miglioramento si sposta da una spesa capitale massiccia a un flusso operativo distribuito.

Questo non elimina il training. Hai ancora bisogno di un modello base solido. Ma cambia fondamentalmente l’economia del mantenere quel modello aggiornato, rilevante e in miglioramento.

E questo concetto — imparare attraverso l’iterazione, non solo attraverso l’esecuzione — sta già comparendo nei prodotti, anche se l’implementazione sottostante non usa ancora direttamente queste architetture.

Dove sta già succedendo

Jitro di Google — il nome interno di Jules V2, il loro agente di coding di nuova generazione — è stato svelato pochi giorni fa. Il suo posizionamento: “Scrivere manualmente i prompt per i tuoi agenti è così… 2025.” Invece di definire task specifici, gli sviluppatori fissano obiettivi ad alto livello — migliorare la copertura dei test, ridurre la latenza, aumentare la conformità all’accessibilità — e l’agente identifica autonomamente cosa deve cambiare nel codebase e itera verso l’obiettivo. Ha il proprio workspace persistente. Mantiene obiettivi, insight e cronologie di aggiornamento. Non esegue una volta e dimentica — opera in loop, costruendo sulle iterazioni precedenti.

GLM-5.1 di Zhipu, pubblicato due giorni fa, va ancora oltre. Il modello può gestire autonomamente un singolo task di coding per fino a otto ore — pianificando, eseguendo, testando e ottimizzando in un loop continuo. Il loro paper tecnico descrive nuovi algoritmi Agent RL asincroni specificamente progettati per imparare da interazioni a lungo orizzonte. Il modello è stato addestrato interamente su chip Huawei Ascend — zero hardware NVIDIA — e la sua API costa circa 5-8 volte meno rispetto ai modelli frontier occidentali comparabili.

Nessuno di questi prodotti è confermato come utilizzante Nested Learning o le architetture Hope sotto il cofano. Potrebbero usare benissimo Transformer con scaffolding sofisticato — framework di agenti, catene di strumenti, database di stato esterni. Ma il concetto è lo stesso: modelli che iterano, ricordano e si auto-correggono nel tempo, piuttosto che modelli che rispondono a un singolo prompt e dimenticano.

L’approccio scaffolding funziona. Ma è fragile e costoso. Un’architettura che fa questo nativamente — che impara continuamente per progettazione piuttosto che per ingegneria esterna — sarebbe fondamentalmente più efficiente. Ed è esattamente ciò che Google Research sta costruendo.

Il collegamento con ai-2027.com

Questa traiettoria si allinea perfettamente con lo scenario tracciato da ai-2027.com — la dettagliata roadmap AGI dell’ex-ricercatore di OpenAI Daniel Kokotajlo e di Scott Alexander. La loro timeline descrive agenti AI che automatizzano progressivamente la ricerca AI stessa: ogni generazione di agenti aiuta a costruire la successiva, più velocemente e a costo inferiore.

A metà 2026 nel loro scenario, l’AI raggiunge un moltiplicatore di ricerca di 1,5x — una settimana di lavoro assistito da agente produce ciò che in precedenza richiedeva 1,5 settimane. A marzo 2027 emergono i “programmatori sovrumani”. A fine 2027, il moltiplicatore tocca 50x.

Perché questo scenario si materializzi, serve esattamente ciò che Nested Learning descrive: modelli che non si limitano ad eseguire istruzioni ma imparano dalle proprie iterazioni. Modelli in cui ogni ciclo di lavoro rende il successivo leggermente migliore. Modelli che chiudono il loop tra azione e miglioramento.

Le aziende che risolvono questo per prime — che fanno di ogni ciclo di inference un passo di apprendimento — sono quelle che potranno cavalcare l’esponenziale. Quelle che continuano a bruciare centinaia di milioni per ogni run di training stanno comprando biglietti della lotteria.

Chi è ben posizionato e chi è esposto

Google ha sia la ricerca fondamentale (il team di Behrouz: Titans → Nested Learning → Hope → ATLAS) sia i prodotti che ne hanno bisogno (Jitro, Gemini). Dispone di capitale paziente, proprietà dell’infrastruttura, e nessuna pressione esistenziale a monetizzare immediatamente ogni breakthrough. Può permettersi di far maturare questa ricerca.

I laboratori cinesi — in particolare Zhipu (GLM-5.1) e DeepSeek — stanno dimostrando che il vincolo genera innovazione. Addestrando su hardware domestico a una frazione dei costi occidentali, raggiungono il 95% delle prestazioni frontier al 15% del prezzo. I loop di coding autonomo di 8 ore di GLM-5.1 non sono un trucco — sono la dimostrazione che l’operatività continua è praticabile già oggi.

OpenAI e Anthropic rimangono concentrati sullo scaling del paradigma Transformer. Modelli più grandi, più potenza di calcolo, prezzi di abbonamento più alti. Funziona finché la forza bruta rimane davanti all’efficienza. Ma man mano che la qualità dei modelli converge — e sta convergendo — il vantaggio si sposta da chi ha più H100 a chi ha l’architettura migliore.

La vera frontiera non è più il miglior punteggio su un benchmark. È il miglior loop di apprendimento.

Cosa significa per te

Se stai pagando 20 $/mese per un abbonamento AI, ecco cosa conta: il modello che stai usando oggi è stato congelato mesi fa. Non impara dalle tue conversazioni. Non migliora dai propri errori. Ogni sessione riparte da zero.

La prossima generazione di AI non funzionerà così. Modelli che imparano continuamente, che migliorano con l’uso, che distribuiscono il loro costo di training nel tempo invece di concentrarlo in un’unica combustione massiccia — stanno arrivando. Saranno più veloci, meno costosi da far girare, e più capaci nel tempo piuttosto che statici.

La domanda è chi li costruirà per primo, e se dovrai pagare 200 $/mese per qualcosa che dovrebbe costare 20 $ — o se la concorrenza dei laboratori cinesi forzerà i prezzi a riflettere i costi reali.

Staremo a guardare. È a questo che servono i venerdì.

Questa è la prima edizione della serie del venerdì di The Frontier View — uno sguardo settimanale sulla ricerca e le applicazioni che stanno plasmando il prossimo capitolo dell’AI. I post del mercoledì e della domenica continuano con la nostra consueta analisi editoriale.

Fonti

Paper citati:

Mamba (Gu & Dao, 2023): arXiv 2312.00752
Mamba-2 / State Space Duality (Dao & Gu, 2024): arXiv 2405.21060
Mamba-3 (Lahoti et al., 2026): arXiv 2603.15569 — ICLR 2026
Titans (Behrouz et al., 2024): arXiv 2501.00663 — NeurIPS 2025
Nested Learning (Behrouz et al., 2025): arXiv 2512.24695 — NeurIPS 2025
ATLAS (Behrouz et al., 2025): arXiv 2505.23735
Infini-Attention (Google, 2024): arXiv 2404.07143
Multi-token Prediction (Meta, 2024): arXiv 2404.19737
DeepSeek-V3 (2024): arXiv 2412.19437
GLM-5 Technical Report (Zhipu/Tsinghua, 2026): arXiv 2602.15763

Prodotti e annunci:

Jitro / Jules V2: testingcatalog.com, April 6, 2026
GLM-5.1: techbriefly.com, April 8, 2026
Nemotron-H: NVIDIA, open-sourced via Hugging Face
Jamba 1.5: AI21 Labs
Phi-4-mini-flash-reasoning / SambaY: Microsoft, July 2025
ai-2027.com scenario: Daniel Kokotajlo & Scott Alexander