Gli Algoritmi Stanno Vincendo

Per due anni, l’industria dell’IA vi ha raccontato una storia semplice: i modelli più grandi hanno bisogno di più RAM, più RAM richiede più chip, più chip richiedono più soldi. Abbonati al piano premium. Aggiorna il tuo hardware. Il futuro è costoso e faresti bene ad abituarti.

Google ha appena smontato questa storia pezzo per pezzo.

TurboQuant: 6x Meno Memoria, Zero Perdite

Ieri, Google Research ha pubblicato TurboQuant — un algoritmo di compressione che riduce il KV cache (la memoria di lavoro che i LLM usano durante le conversazioni) a soli 3 bit per valore. Senza riaddestrare il modello. Senza fine-tuning. Senza perdita di precisione.

I numeri: riduzione della memoria di 6x. Accelerazione fino a 8x su GPU H100. Il paper verrà presentato a ICLR 2026 a fine mese a Rio de Janeiro.

Internet ha immediatamente gridato al Pied Piper. Il paragone regge — tranne che Pied Piper era finzione, mentre TurboQuant ha i benchmark.

Nel giro di poche ore dalla pubblicazione del post, gli sviluppatori hanno cominciato a reimplementarlo da zero. Non usando il codice di Google — Google non ne ha rilasciato. Hanno letto la matematica e scritto il proprio. Uno sviluppatore ha ottenuto un output identico al modello non compresso con precisione a 2 bit su una RTX 4090. Esistono già implementazioni della community per PyTorch, MLX e llama.cpp.

Le azioni di Micron e Western Digital sono crollate all’apertura dei mercati.

La Tendenza Non È Nuova. La Convergenza Sì.

TurboQuant non è apparso dal nulla. È l’ultimo punto di una curva che si piega da oltre un anno:

DeepSeek ha dimostrato che si potevano addestrare modelli competitivi su chip inferiori a una frazione del costo. In Occidente dicevano che era impossibile — finché non è successo.
GLM e Qwen offrono modelli paragonabili alla frontiera dello stato dell’arte a 1/7 del prezzo. Non perché siano peggiori — ma perché sono più efficienti.
Le architetture MoE attivano solo una frazione dei parametri del modello per query, riducendo drasticamente i requisiti di calcolo.
Il decoding speculativo accelera l’inferenza generando token con modelli più piccoli e verificandoli con quelli più grandi.

Ciascuno di questi è un progresso indipendente. Insieme, formano uno schema: l’efficienza algoritmica sta superando lo scaling dell’hardware. Ogni guadagno in efficienza compensa parzialmente la domanda di calcolo bruto.

I produttori di RAM avevano scommesso sulla traiettoria opposta. Hanno espanso la produzione supponendo che la domanda di IA sarebbe cresciuta in modo lineare. Non sarà così.

La Simbiosi Google-Apple

È qui che la faccenda si fa interessante. Google non ha costruito TurboQuant per aiutarti a far girare Llama sul tuo Mac Studio. L’ha costruito per i suoi datacenter, per l’inferenza di Gemini, per l’economia di servire miliardi di query.

Ma Google paga ad Apple circa 20 miliardi di dollari all’anno per la distribuzione nelle ricerche. Gemini si sta integrando in iOS. Google ha bisogno che l’hardware Apple esegua i suoi modelli in modo efficiente — perché è così che raggiungi centinaia di milioni di utenti senza costruire un solo dispositivo consumer.

E Apple ha bisogno di modelli che girano sul dispositivo per sostenere la sua narrativa sulla privacy. Ogni guadagno in efficienza che permette a un modello più grande di stare nella memoria unificata è munizione per l’argomento di Apple secondo cui “i tuoi dati non lasciano mai il dispositivo”.

Non è collaborazione accidentale. È simbiosi strutturale. Google ottimizza l’inferenza → la community lo porta su MLX → Apple Silicon fa girare modelli più grandi → Apple vende più hardware → Google guadagna più distribuzione. Vince tutti.

Tranne le aziende che vendevano la RAM.

La Stretta sulla Memoria

L’industria della memoria ha vissuto di domanda artificiale. I datacenter hanno accaparrato ogni chip disponibile per l’addestramento dell’IA. I prezzi sono andati alle stelle. SK Hynix e Micron hanno registrato margini record. Samsung si è affannata per recuperare terreno nella produzione di HBM.

Ora la stretta arriva da entrambi i lati:

Dall’alto: Algoritmi come TurboQuant significano che ogni GPU ha bisogno di meno memoria per lo stesso carico di lavoro. Una riduzione di 6x nella dimensione del KV cache significa che puoi servire 6x più utenti con lo stesso hardware, oppure comprare 6x meno hardware per lo stesso carico. Nessuno dei due scenari fa bene alle vendite di memoria.

Dal basso: L’inferenza sul dispositivo riduce la dipendenza dal cloud. Se il tuo telefono o laptop può eseguire un modello capace in locale, è un utente in meno che colpisce un datacenter. Apple, Qualcomm e Intel stanno tutte spingendo sull’IA locale — e ogni passo avanti in efficienza rende la loro proposta più credibile.

I produttori di memoria si adatteranno. Lo fanno sempre. Ma “adattarsi” significa competizione sui prezzi, il che significa hardware consumer più economico. Quell’upgrade da RAM da 400 € per la tua workstation? Tra 18 mesi sembrerà una cosa molto diversa.

Cosa Significa Se Non Sei un Datacenter

Se fai girare modelli in locale — su un Mac, una macchina Linux, una GPU casalinga — ecco la traduzione pratica:

Un modello quantizzato a 4 bit con un KV cache TurboQuant a 4 bit può far girare modelli considerevolmente grandi su hardware consumer con contesti lunghi. Un anno fa, quella frase sarebbe stata fantascienza. Oggi, la gente lo fa su 4090 e Mac con chip serie M.

Il modello da 70 miliardi di parametri che saturava 128 GB di memoria unificata con una finestra di contesto lunga? Con la compressione stile TurboQuant, quella stessa conversazione ci sta comodamente. Il vincolo si sposta da “ho abbastanza RAM?” a “ho abbastanza larghezza di banda?” — e su Apple Silicon, la larghezza di banda è uno dei punti di forza principali.

Questa è la democratizzazione che conta davvero. Non l’ennesimo wrapper di chatbot con canone mensile. Non l’ennesima API che fa pagare per token. Modelli veri, che girano su hardware di tua proprietà, che producono output che controlli tu.

Il Momento del Comune Mortale

L’industria dell’IA ha costruito una narrativa in cui il futuro apparteneva a chi poteva permettersi più calcolo. Cluster più grandi. Più GPU. Livelli di abbonamento più alti.

Ma gli algoritmi non rispettano quella narrativa. Un paper del Google Research e una giornata di hacking comunitario hanno appena reso ogni GPU esistente più capace. I laboratori cinesi continuano a dimostrare che i vincoli generano innovazione anziché resa. E la simbiosi tra la ricerca sull’efficienza di Google e l’ecosistema hardware di Apple significa che i benefici scorrono verso il basso — verso la persona con una tastiera e un server casalingo.

Le aziende che hanno passato due anni a dirti che avevi bisogno di più, ancora di più, sempre di più, stanno per scoprire che gli algoritmi non sono d’accordo.

La corsa agli armamenti della RAM sta finendo. Non con un crollo, ma con la compressione.

The Frontier View costa 10,36 $/anno di spese operative. L’industria che copre brucia 19 miliardi. TurboQuant comprime a 6:1. Noi comprimiamo a 1.835.000:1. L’efficienza vince.