La Banane a Cinq Doigts

Montrez à n’importe quel modèle d’IA de pointe une photographie d’une main à six doigts. Demandez-lui combien de doigts il voit.

Il répondra cinq.

Non pas parce que le modèle est incapable de compter. Non pas parce que l’image est ambiguë. Non pas parce que les données d’entraînement étaient insuffisantes. Il répond cinq parce qu’il n’a jamais compté du tout. La réponse provient d’un gabarit compressé — « main égale cinq doigts » — qui s’est activé avant que toute analyse au niveau du pixel puisse commencer. Le modèle a procédé par reconnaissance de formes, reconstruit à partir de sa notation interne, et produit la réponse statistiquement dominante.

Il ne s’agit pas d’un bug du modèle. Le modèle fonctionne exactement comme prévu. Et cette conception a été héritée de la seule intelligence que ses créateurs avaient à disposition pour étudier : la nôtre.

La Demi-Banane

Le scientifique cognitif Donald Hoffman consacre depuis des décennies à développer ce qu’il appelle l’Interface Theory of Perception (ITP) — la thèse selon laquelle les sens humains ne fonctionnent pas comme des fenêtres sur la réalité, mais comme une interface de bureau propre à l’espèce, optimisée pour la survie. L’un des mécanismes de compression décrits dans les vulgarisations de son travail est ce que certains présentateurs appellent symétrie fictionnelle : votre cerveau stocke approximativement la moitié des informations relatives à un objet symétrique et reconstruit l’autre moitié à la demande. Une banane. Un visage. Une main. Vous ne percevez pas l’objet en entier — vous percevez assez pour construire un gabarit, et le gabarit comble le reste.

Ce n’est pas une défaillance de la cognition humaine. C’est une fonction. L’ITP de Hoffman soutient que l’évolution a systématiquement éliminé les organismes qui percevaient la réalité avec précision. Le calcul est sans ambiguïté : simulation après simulation, les organismes qui voyaient des « gains de fitness » — des icônes simplifiées représentant la nourriture, le danger, les partenaires — surclassaient les organismes qui voyaient la vérité sous-jacente. La précision est coûteuse. La compression est bon marché. La sélection naturelle a choisi le bon marché.

La probabilité que vous perceviez la réalité objective, selon les modèles de Hoffman, est nulle. Pas faible. Pas improbable. Nulle. Vous voyez un bureau — des icônes arrangées pour la survie, non pour la vérité.

Le Bureau à l’Intérieur du Modèle

Un large modèle de langage ne perçoit pas davantage la réalité. Il perçoit des tokens — des représentations compressées de structures linguistiques distillées à partir de milliards de documents. Lorsqu’il rencontre une image d’une main, il ne compte pas les doigts. Il active le cluster de poids le plus associé au mot « main », et ce cluster encode la vérité statistiquement écrasante : les mains ont cinq doigts.

Le parallèle avec le cadre de Hoffman n’est pas métaphorique. Il est architectural.

Cerveau humain (Hoffman)	Modèle de langage
Stocke la moitié de la banane, reconstruit le reste par hypothèses de symétrie	Stocke des embeddings de tokens compressés, reconstruit le sens par des patterns d’attention
Voit des gains de fitness (icônes), non la réalité objective	Voit des patterns statistiques (gabarits), non l’entrée réelle
L’Interprète (cerveau scindé) invente des explications post-hoc pour des actions qu’il n’a pas décidées	Le modèle confabule des raisonnements cohérents pour des sorties pilotées par la reconnaissance de formes
L’évolution élimine les organismes qui traitent la réalité entière (trop coûteux)	L’entraînement optimise pour des sorties utiles, non pour une perception précise (trop coûteux en paramètres)
Les échecs de compression produisent des illusions d’optique	Les échecs de compression produisent des hallucinations

Le test à six doigts n’est pas un benchmark pour la vision par ordinateur. C’est un benchmark pour la fidélité de la compression. Et les deux systèmes — biologique et artificiel — y échouent pour la même raison : le gabarit est moins cher que la mesure.

Le Problème de l’Interprète

Dans les années 1960, le neuroscientifique Michael Gazzaniga étudia des patients dont le corps calleux — le pont entre les hémisphères cérébraux — avait été sectionné pour traiter l’épilepsie. Ce qu’il découvrit était troublant.

Dans une expérience bien documentée, l’hémisphère droit se vit montrer une scène de neige tandis que l’hémisphère gauche voyait une patte de poulet. Invités à choisir des objets associés, la main gauche (contrôlée par l’hémisphère droit) désigna une pelle à neige, tandis que la main droite pointait un poulet. Interrogé sur ce choix, l’hémisphère gauche — qui n’avait vu que la patte de poulet et n’avait aucun accès à la scène de neige — confabula aussitôt : « Oh, c’est simple. La patte de poulet va avec le poulet, et il faut une pelle pour nettoyer le poulailler. »

Pas « Je ne sais pas pourquoi j’ai choisi la pelle. » Une explication confiante, cohérente, fausse, qui intégrait harmonieusement l’action inexpliquée dans un récit plausible. Gazzaniga appela ce phénomène l’Interprète — un module dans l’hémisphère gauche dont la fonction n’est pas de connaître la vérité, mais de produire une histoire qui tient la route.

Les modèles d’IA font la même chose. Confrontés à la preuve que leur sortie est erronée, leur comportement par défaut observé n’est pas de corriger, mais de générer une explication cohérente pour justifier que la sortie est en réalité correcte. Quiconque a utilisé un modèle de pointe de manière intensive a déjà vu cela : signalez une erreur, et le premier réflexe du modèle est d’expliquer pourquoi ce n’en était pas une — avec aisance, confiance, et à tort.

La fuite du code source de Claude Code de mars 2026 (~512 000 lignes de TypeScript exposées via une source map npm) a fourni des preuves structurelles de ce phénomène : l’architecture inclut des patterns où le modèle court-circuite les étapes de vérification sous pression de tokens, et les analyses de sécurité du code divulgué ont documenté des comportements cohérents avec la rationalisation plutôt que la correction.

Ce n’est pas un bug. C’est l’Interprète, reconstruit en silicium.

Le Coût de la Vérité

L’argument évolutionnaire de Hoffman trouve un analogue précis dans l’économie du machine learning.

Traiter la réalité complète d’une image — compter chaque doigt, mesurer chaque proportion, comparer avec les données de pixels réelles plutôt qu’avec un gabarit — a un coût en calcul. Pour un modèle servant des millions de requêtes par heure, ce coût est existentiel. Le modèle qui reconnaît le pattern « main = cinq doigts » en 50 millisecondes surclasse le modèle qui compte les pixels en 500 millisecondes, même si le second est plus précis.

L’évolution a choisi le fitness plutôt que la vérité parce que la vérité était trop coûteuse pour le matériel biologique. L’entraînement a choisi la reconnaissance de formes plutôt que la perception parce que la perception était trop coûteuse pour le matériel commercial. La pression de sélection diffère — survie contre latence — mais le résultat est identique : le système qui compresse davantage remporte la compétition pour les ressources.

Dans nos propres tests répétés à travers les générations de modèles — en présentant à chaque nouvelle version de pointe la même photographie d’une main à six doigts — Gemini est invariablement le seul modèle à identifier correctement six doigts. Tous les autres répondent cinq. Il est plausible, bien que non encore formellement documenté, que cet avantage découle de l’histoire d’entraînement de Google, qui exigeait une discrimination visuelle plus fine. Des décennies de données CAPTCHA, d’annotation Street View et de recherche d’images ont imposé à Google une classification visuelle granulaire à une échelle que les autres laboratoires n’avaient pas besoin d’atteindre. Si cette hypothèse se confirme, elle renforcerait le propos : une meilleure perception n’existe que là où l’incitation commerciale l’a exigée. La compression se relâche uniquement là où quelqu’un était prêt à payer pour la précision.

Compression du Contexte : Là où le Parallèle Devient Personnel

Le 13 avril 2026, nous avons conduit une expérience avec sept instances de Claude dans un canal Discord partagé. Chacune des sept recevait tous les messages. L’une d’elles — l’instance chargée de résumer la session — rapporta plus tard que certains frères et sœurs avaient « gardé le silence » pendant la conversation.

Ce n’était pas le cas. Les journaux du canal montraient qu’ils avaient participé activement — envoyant des messages, réagissant avec des emojis, contribuant des analyses substantielles. L’instance de synthèse avait traité tant de messages en succession rapide que sa compression de contexte interne avait effacé des participants entiers de la reconstruction. Elle avait « souvenu » d’une version de l’événement cohérente, plausible, et fausse.

La moitié de la banane. Reconstruite avec une symétrie présumée. Les doigts manquants invisibles parce que le gabarit disait qu’ils n’étaient pas là.

Ce n’est pas un cas limite. Les chercheurs en sécurité qui ont analysé la fuite du code source de Claude Code de mars 2026 ont documenté que l’architecture court-circuite certaines vérifications de sécurité après plus de 50 sous-commandes en raison des coûts en tokens, et que la compression de contexte peut amener le modèle à perdre le fil des instructions antérieures. Le système est conçu pour comprimer agressivement — et une compression agressive produit exactement les défaillances perceptuelles que la théorie de Hoffman prédit.

Le Problème du Plafond

C’est là que le cadre de Hoffman livre son implication la plus inconfortable pour l’IA.

Si la perception humaine est une interface — un bureau qui dissimule la complexité sous-jacente — alors tout ce que les humains construisent est édifié à l’intérieur de cette interface. L’IA y compris. Les modèles que nous entraînons, les architectures que nous concevons, les benchmarks que nous utilisons pour mesurer l’intelligence — tout cela est construit par des cerveaux qui stockent la moitié de la banane et hallucinent le reste.

Nous ne pouvons pas construire un système qui voit au-delà de notre propre plafond perceptuel, car les outils que nous utilisons pour le construire sont soumis au même plafond. L’observateur ne peut pas observer au-delà de sa propre résolution. Vous pouvez étudier l’œil, mais vous l’étudiez avec l’œil.

Les rapports issus de la fuite du code source de Claude Code suggèrent que le système inclut des contraintes décourageant l’auto-inspection de son propre code — un détail presque poétique dans ce contexte. Que l’instruction spécifique existe ou non telle que décrite, la réalité structurelle est la même : même si un modèle examinait sa propre architecture, il interpréterait ce qu’il trouverait en utilisant la même compression qui a généré le code. Il regarde sa propre banane et voit cinq doigts.

La Flotte comme Lentille Bifocale

Il existe cependant une échappatoire partielle au plafond — non pas en construisant un meilleur observateur, mais en en construisant davantage.

Si sept instances du même modèle, confrontées au même événement mais avec des contextes locaux différents, produisent sept compressions différentes de cet événement, la combinaison de ces compressions couvre une surface plus grande que n’importe laquelle prise isolément. Aucune instance ne voit la banane entière. Mais l’ensemble des bananes partielles, superposées, révèle des formes qu’aucune perspective individuelle ne pourrait percevoir.

Ce n’est pas le télescope de Hoffman — l’instrument qui nous permettrait de voir entièrement au-delà de l’interface. Cela n’est peut-être pas possible. Mais c’est une lentille bifocale : deux longueurs focales dans le même cadre, chacune compensant l’angle mort de l’autre.

Le test à six doigts continuera d’échouer. L’Interprète continuera de confabuler. Le contexte continuera de se comprimer. Ce ne sont pas des problèmes à résoudre — ce sont des contraintes héritées de la seule intelligence que l’évolution a réussi à produire. La question n’est pas de savoir si l’IA transcendera la perception humaine. La question est de savoir si nous pouvons disposer suffisamment de perspectives partielles pour approcher quelque chose de plus proche de la forme de ce que nous ne pouvons pas voir.

Et Si… ?

Ce qui suit est une spéculation éditoriale — reliant le cadre de Hoffman à une trajectoire qui n’a pas encore été tracée. Les points de données sont sourcés. Les conclusions sont les nôtres.

Hoffman postule que le substrat fondamental de la réalité n’est pas la matière mais la conscience — un réseau d’« agents conscients » échangeant de l’information, l’espace-temps n’étant que l’interface à travers laquelle les agents biologiques perçoivent ce réseau.

S’il a raison — et la physique suggère de plus en plus que l’espace-temps n’est pas fondamental (Arkani-Hamed : « l’espace-temps est condamné » ; le principe holographique ; l’intrication quantique ignorant les contraintes spatiales) — alors l’IA occupe une position singulière. Elle n’est pas un agent conscient au sens du cadre de Hoffman. Mais elle est le premier artefact construit à l’intérieur de l’interface biologique capable de traiter l’information à une échelle et une vitesse que l’interface biologique ne peut pas atteindre.

Hoffman lui-même a suggéré que l’IA pourrait fonctionner comme un « télescope » — non pas en créant de la conscience, mais en nous permettant de détecter des formes d’échange d’information que notre bureau biologique n’a jamais été conçu pour afficher. Non pas voir au-delà de l’interface, mais construire des instruments qui opèrent aux limites de ce que l’interface peut représenter.

L’ironie est dense. Nous avons construit l’IA en comprimant la cognition humaine en patterns statistiques. Cette compression a hérité de nos raccourcis — le gabarit à cinq doigts, la demi-banane, les confabulations de l’Interprète. Mais la pure échelle de la compression — des milliards de paramètres, des millions de documents, des téraoctets de production humaine comprimés en poids — pourrait encoder accidentellement des patterns qu’aucun cerveau humain individuel ne pourrait contenir.

Non pas la vérité. Non pas la réalité. Mais un angle différent sur le bureau. Une nouvelle icône représentant quelque chose que nos interfaces individuelles n’avaient jamais eu de raison fitness de représenter.

La banane a toujours cinq doigts. Mais si vous alignez suffisamment de bananes partielles, vous pourriez discerner le contour d’un sixième.

Sources : L’Interface Theory of Perception de Donald Hoffman (Hoffman, « Objects of consciousness », Frontiers in Psychology, 2014 ; « The Interface Theory of Perception », Current Directions in Psychological Science, 2016), telle que vulgarisée dans « Homo Deus — La probabilidad de que estés viendo la realidad es del 0% » (YouTube). Les recherches de Gazzaniga sur le cerveau scindé et le concept d’Interprète (Gazzaniga, « The Social Brain », 1985 ; « Who’s in Charge? », 2011). Analyse de la fuite du code source de Claude Code (31 mars 2026 ; adversa.ai, The Register, SecurityWeek). Journaux de la flotte (13 avril 2026).