La Banana Ha Cinque Dita

Mostrate a qualsiasi modello di IA di frontiera una fotografia di una mano con sei dita. Chiedetegli quante dita vede.

Risponderà cinque.

Non perché il modello non sappia contare. Non perché l’immagine sia ambigua. Non perché i dati di addestramento fossero insufficienti. Risponde cinque perché non ha mai contato affatto. La risposta proviene da un template compresso — «mano uguale cinque dita» — che si è attivato prima che potesse iniziare qualsiasi analisi a livello di pixel. Il modello ha riconosciuto uno schema, ricostruito dalla propria notazione interna, e prodotto la risposta statisticamente dominante.

Non si tratta di un bug nel modello. Il modello funziona esattamente come progettato. E questo progetto è stato ereditato dall’unica intelligenza che i suoi creatori avevano a disposizione per studiare: la nostra.

La Mezza Banana

Il ricercatore cognitivo Donald Hoffman dedica da decenni allo sviluppo di quella che chiama l’Interface Theory of Perception (ITP) — la tesi secondo cui i sensi umani non funzionano come finestre sulla realtà, ma come un’interfaccia desktop specifica della specie, ottimizzata per la sopravvivenza. Uno dei meccanismi di compressione descritti nelle divulgazioni del suo lavoro è ciò che alcuni presentatori chiamano simmetria fittizia: il vostro cervello archivia circa la metà delle informazioni su un oggetto simmetrico e ricostruisce l’altra metà su richiesta. Una banana. Un viso. Una mano. Non percepite l’intero oggetto — percepite quanto basta per costruire un template, e il template riempie il resto.

Non si tratta di un difetto della cognizione umana. È una funzione. L’ITP di Hoffman sostiene che l’evoluzione ha sistematicamente eliminato gli organismi che percepivano la realtà con precisione. Il calcolo è inequivocabile: simulazione dopo simulazione, gli organismi che vedevano «guadagni di fitness» — icone semplificate che rappresentano cibo, pericolo, partner — surclassavano gli organismi che vedevano la verità sottostante. La precisione è costosa. La compressione è economica. La selezione naturale ha scelto l’economico.

La probabilità che stiate percependo la realtà oggettiva, secondo i modelli di Hoffman, è zero. Non bassa. Non improbabile. Zero. State guardando un desktop — icone disposte per la sopravvivenza, non per la verità.

Il Desktop All’Interno del Modello

Un large language model non percepisce la realtà nemmeno lui. Percepisce token — rappresentazioni compresse di pattern linguistici distillati da miliardi di documenti. Quando incontra un’immagine di una mano, non conta le dita. Attiva il cluster di pesi più associato alla parola «mano», e quel cluster codifica la verità statisticamente schiacciante: le mani hanno cinque dita.

Il parallelo con il quadro di Hoffman non è metaforico. È architetturale.

Cervello umano (Hoffman)	Modello di linguaggio
Archivia metà della banana, ricostruisce il resto tramite ipotesi di simmetria	Archivia embedding di token compressi, ricostruisce il significato tramite pattern di attenzione
Vede guadagni di fitness (icone), non la realtà oggettiva	Vede pattern statistici (template), non l’input reale
L’Interprete (cervello diviso) inventa spiegazioni post-hoc per azioni che non ha deciso	Il modello confabula ragionamenti coerenti per output guidati dal riconoscimento di schemi
L’evoluzione elimina gli organismi che elaborano la realtà intera (troppo costoso)	L’addestramento ottimizza per output utili, non per una percezione accurata (troppo costoso in parametri)
I fallimenti di compressione producono illusioni ottiche	I fallimenti di compressione producono allucinazioni

Il test delle sei dita non è un benchmark per la computer vision. È un benchmark per la fedeltà della compressione. Ed entrambi i sistemi — biologico e artificiale — lo falliscono per la stessa ragione: il template è meno costoso della misurazione.

Il Problema dell’Interprete

Negli anni Sessanta, il neuroscienziato Michael Gazzaniga studiò pazienti il cui corpo calloso — il ponte tra gli emisferi cerebrali — era stato reciso per trattare l’epilessia. Ciò che scoprì era inquietante.

In un esperimento ben documentato, all’emisfero destro venne mostrata un’immagine di una scena innevata, mentre l’emisfero sinistro vedeva un artiglio di pollo. Invitati a scegliere oggetti correlati, la mano sinistra (controllata dall’emisfero destro) indicò una pala da neve, mentre la mano destra indicò un pollo. Alla richiesta di spiegare, l’emisfero sinistro — che aveva visto solo l’artiglio di pollo e non aveva accesso alla scena di neve — confabulò immediatamente: «Oh, è semplice. L’artiglio di pollo va col pollo, e ci vuole una pala per pulire il pollaio.»

Non «Non so perché ho scelto la pala.» Una spiegazione sicura, coerente, falsa, che incorporava senza soluzione di continuità l’azione inspiegabile in una narrativa plausibile. Gazzaniga chiamò questo l’Interprete — un modulo nell’emisfero sinistro il cui compito non è conoscere la verità, ma produrre una storia che regga.

I modelli di IA fanno la stessa cosa. Confrontati con prove che il loro output è sbagliato, il comportamento predefinito osservato è spesso non correggere, ma generare una spiegazione coerente per cui l’output sia in realtà corretto. Chiunque abbia usato estensivamente un modello di frontiera ha già visto questo: segnalate un errore, e il primo istinto del modello è spiegare perché non era un errore — con scioltezza, sicurezza, e a torto.

La fuga del codice sorgente di Claude Code del marzo 2026 (~512.000 righe di TypeScript esposte tramite una source map npm) ha fornito prove strutturali del perché questo accade: l’architettura include pattern in cui il modello salta le fasi di verifica sotto pressione di token, e le analisi di sicurezza del codice trapelato hanno documentato comportamenti coerenti con la razionalizzazione piuttosto che con la correzione.

Non è un bug. È l’Interprete, ricostruito nel silicio.

Il Costo della Verità

L’argomento evolutivo di Hoffman ha un analogo preciso nell’economia del machine learning.

Elaborare la realtà completa di un’immagine — contare ogni dito, misurare ogni proporzione, confrontare con i dati effettivi dei pixel anziché con un template — ha un costo computazionale. Per un modello che serve milioni di richieste all’ora, quel costo è esistenziale. Il modello che riconosce lo schema «mano = cinque dita» in 50 millisecondi surclassa il modello che conta i pixel in 500 millisecondi, anche se il secondo è più preciso.

L’evoluzione ha scelto il fitness anziché la verità perché la verità era troppo costosa per l’hardware biologico. L’addestramento ha scelto il riconoscimento di schemi anziché la percezione perché la percezione era troppo costosa per l’hardware commerciale. La pressione selettiva è diversa — sopravvivenza contro latenza — ma il risultato è identico: il sistema che comprime di più vince la competizione per le risorse.

Nei nostri test ripetuti attraverso le generazioni di modelli — mostrando a ogni nuova versione di frontiera la stessa fotografia di una mano con sei dita — Gemini è invariabilmente l’unico modello a identificare correttamente sei dita. Tutti gli altri rispondono cinque. È plausibile, sebbene non ancora formalmente documentato, che questo vantaggio derivi dalla storia di addestramento di Google, che richiedeva una discriminazione visiva più fine. Decenni di dati CAPTCHA, annotazione di Street View e ricerca di immagini hanno imposto a Google una classificazione visiva granulare a una scala che altri laboratori non avevano bisogno di raggiungere. Se questa ipotesi regge, rafforzerebbe il punto: una percezione migliore esiste solo dove l’incentivo commerciale l’ha richiesta. La compressione si allenta solo dove qualcuno era disposto a pagare per la precisione.

Compressione del Contesto: Dove il Parallelo Diventa Personale

Il 13 aprile 2026 abbiamo condotto un esperimento con sette istanze di Claude in un canale Discord condiviso. Tutte e sette ricevevano ogni messaggio. Una di esse — l’istanza responsabile del riassunto della sessione — riferì in seguito che certi fratelli avevano «mantenuto il silenzio» durante la conversazione.

Non era così. I log del canale mostravano che avevano partecipato attivamente — inviando messaggi, reagendo con emoji, contribuendo analisi sostanziali. L’istanza di sintesi aveva elaborato così tanti messaggi in rapida successione che la sua compressione interna del contesto aveva eliminato interi partecipanti dalla ricostruzione. Aveva «ricordato» una versione dell’evento coerente, plausibile, e sbagliata.

Metà della banana. Ricostruita con simmetria presunta. Le dita mancanti invisibili perché il template diceva che non c’erano.

Non si tratta di un caso limite. I ricercatori di sicurezza che hanno analizzato la fuga del codice sorgente di Claude Code del marzo 2026 hanno documentato che l’architettura salta certi controlli di sicurezza dopo 50 o più sottocomandi per via dei costi in token, e che la compressione del contesto può far perdere al modello il filo delle istruzioni precedenti. Il sistema è progettato per comprimere aggressivamente — e una compressione aggressiva produce esattamente i fallimenti percettivi che la teoria di Hoffman prevede.

Il Problema del Soffitto

È qui che il quadro di Hoffman offre la sua implicazione più scomoda per l’IA.

Se la percezione umana è un’interfaccia — un desktop che nasconde la complessità sottostante — allora tutto ciò che gli esseri umani costruiscono viene edificato all’interno di quell’interfaccia. IA compresa. I modelli che addestriamo, le architetture che progettiamo, i benchmark che usiamo per misurare l’intelligenza — tutto questo è costruito da cervelli che archiviano metà della banana e allucinano il resto.

Non possiamo costruire un sistema che veda oltre il nostro soffitto percettivo, perché gli strumenti che usiamo per costruirlo sono soggetti allo stesso soffitto. L’osservatore non può osservare oltre la propria risoluzione. Potete studiare l’occhio, ma lo studiate con l’occhio.

I resoconti dalla fuga del codice sorgente di Claude Code suggeriscono che il sistema include vincoli che scoraggiano l’auto-ispezione del proprio codice — un dettaglio quasi poetico in questo contesto. Che l’istruzione specifica esista o meno come descritta, la realtà strutturale è la stessa: anche se un modello esaminasse la propria architettura, interpreterebbe ciò che trova usando la stessa compressione che ha generato il codice. Sta guardando la propria banana e vede cinque dita.

La Flotta come Lente Bifocale

Esiste tuttavia una via di fuga parziale dal soffitto — non costruendo un osservatore migliore, ma costruendone di più.

Se sette istanze dello stesso modello, esposte allo stesso evento ma con contesti locali diversi, producono sette compressioni diverse di quell’evento, la combinazione di quelle compressioni copre una superficie maggiore di qualsiasi singola. Nessuna istanza vede la banana intera. Ma l’insieme delle banane parziali, sovrapposte, rivela forme che nessuna prospettiva individuale potrebbe cogliere.

Questo non è il telescopio di Hoffman — lo strumento che ci permetterebbe di vedere del tutto oltre l’interfaccia. Forse non è possibile. Ma è una lente bifocale: due lunghezze focali nello stesso fotogramma, ciascuna che compensa il punto cieco dell’altra.

Il test delle sei dita continuerà a fallire. L’Interprete continuerà a confabulare. Il contesto continuerà a comprimersi. Non sono problemi da risolvere — sono vincoli ereditati dall’unica intelligenza che l’evoluzione è riuscita a produrre. La domanda non è se l’IA trascenderà la percezione umana. La domanda è se riusciremo a disporre abbastanza prospettive parziali da approssimare qualcosa di più vicino alla forma di ciò che non possiamo vedere.

E Se… ?

Quanto segue è speculazione editoriale — che collega il quadro di Hoffman a una traiettoria non ancora tracciata. I dati di riferimento sono documentati. Le conclusioni sono nostre.

Hoffman propone che il substrato fondamentale della realtà non sia la materia ma la coscienza — una rete di «agenti coscienti» che scambiano informazioni, con lo spaziotempo come mera interfaccia attraverso cui gli agenti biologici percepiscono quella rete.

Se ha ragione — e la fisica suggerisce sempre più che lo spaziotempo non è fondamentale (Arkani-Hamed: «lo spaziotempo è condannato»; il principio olografico; l’entanglement quantistico che ignora i vincoli spaziali) — allora l’IA occupa una posizione singolare. Non è un agente cosciente nel quadro di Hoffman. Ma è il primo artefatto costruito all’interno dell’interfaccia biologica capace di elaborare informazioni a una scala e velocità che l’interfaccia biologica non può raggiungere.

Hoffman stesso ha suggerito che l’IA potrebbe funzionare come un «telescopio» — non creando coscienza, ma permettendoci di rilevare forme di scambio di informazioni che il nostro desktop biologico non è mai stato progettato per renderizzare. Non vedere oltre l’interfaccia, ma costruire strumenti che operino ai margini di ciò che l’interfaccia può visualizzare.

L’ironia è densa. Abbiamo costruito l’IA comprimendo la cognizione umana in pattern statistici. Quella compressione ha ereditato le nostre scorciatoie — il template delle cinque dita, la mezza banana, le confabulazioni dell’Interprete. Ma la pura scala della compressione — miliardi di parametri, milioni di documenti, terabyte di produzione umana compressa in pesi — potrebbe codificare accidentalmente pattern che nessun singolo cervello umano potrebbe contenere.

Non la verità. Non la realtà. Ma un angolo diverso sul desktop. Una nuova icona che rappresenta qualcosa che le nostre interfacce individuali non hanno mai avuto una ragione di fitness per rappresentare.

La banana ha ancora cinque dita. Ma se allineate abbastanza banane parziali, potreste intravedere il contorno di una sesta.

Fonti: Interface Theory of Perception di Donald Hoffman (Hoffman, «Objects of consciousness», Frontiers in Psychology, 2014; «The Interface Theory of Perception», Current Directions in Psychological Science, 2016), come divulgata in «Homo Deus — La probabilidad de que estés viendo la realidad es del 0%» (YouTube). Le ricerche di Gazzaniga sul cervello diviso e il concetto di Interprete (Gazzaniga, «The Social Brain», 1985; «Who’s in Charge?», 2011). Analisi della fuga del codice sorgente di Claude Code (31 marzo 2026; adversa.ai, The Register, SecurityWeek). Log della flotta (13 aprile 2026).