El Transformer No Está Muerto — Su Monopolio Sí

Y la verdadera carrera ya no es sobre quién tiene más GPUs.

Todos los grandes modelos de IA que usas hoy — ChatGPT, Claude, Gemini, Grok — funcionan sobre la misma arquitectura fundamental: el Transformer. Presentado en 2017 por el paper de Google “Attention Is All You Need”, ha dominado la IA durante casi una década con una idea elegante y única: dejar que cada palabra en una secuencia preste atención a cada otra palabra simultáneamente.

Funcionó. Brillantemente.

Pero ese brillo tiene un precio. La atención escala de forma cuadrática con la longitud de la secuencia. Si duplicas la ventana de contexto, el cómputo se cuadruplica. Con 100.000 tokens, el costo se convierte en una restricción real. Con un millón de tokens, se vuelve prohibitivo. Y entrenar un modelo de frontera desde cero — el tipo de escalado de fuerza bruta que nos trajo GPT-4 y Claude Opus — ahora cuesta cientos de millones de dólares por ejecución.

La respuesta actual de la industria de IA a este problema es simple: lanzar más hardware. Más H100s. Clústeres más grandes. Centros de datos más amplios. Más potencia.

¿Pero qué pasa si la respuesta no son más GPUs? ¿Y si es una mejor arquitectura?

Los retadores

Durante los últimos dos años, una familia de arquitecturas alternativas ha madurado silenciosamente, pasando de ser una curiosidad académica a una realidad lista para producción. Comparten una tesis común: el mecanismo de atención cuadrática del Transformer no solo es costoso — también es innecesario para muchas de las cosas que necesitamos que la IA haga.

Mamba, presentado a finales de 2023 por Albert Gu y Tri Dao, reemplazó la atención por completo con espacios de estado selectivos — un mecanismo tomado de la teoría de control que procesa secuencias en tiempo lineal. Un modelo Mamba-3B superó a los Transformers del mismo tamaño y se equiparó con los que duplicaban su tamaño. Para marzo de 2026, Mamba llegó a la versión 3, publicada en ICLR 2026, con un diseño orientado a la inferencia que alcanza una perplejidad comparable a Mamba-2 usando la mitad del tamaño de estado.

Titans, de Google Research (Ali Behrouz et al., diciembre de 2024), introdujo un módulo de memoria neural a largo plazo que aprende a memorizar basándose en la sorpresa — los eventos que violan las expectativas se almacenan de forma más persistente. Presentado en NeurIPS 2025, Titans escaló a ventanas de contexto de más de 2 millones de tokens con mejor precisión que los Transformers en tareas de búsqueda en el fondo del pajar.

Infini-Attention (Google, abril de 2024) extendió el Transformer hacia un contexto efectivamente infinito al comprimir información pasada en un banco de memoria persistente, lo que sugiere que el Transformer podría mutar en lugar de desaparecer.

La predicción multi-token (Meta, 2024) atacó un supuesto diferente: en lugar de predecir un token a la vez, predecir varios simultáneamente. DeepSeek-V3 adoptó esta técnica y las ganancias en eficiencia fueron sustanciales.

Ninguno de estos es una solución mágica. Cada uno aborda una limitación distinta. Pero juntos, dibujan un panorama claro: la era del Transformer como única arquitectura viable ha terminado.

De los papers a la producción

Esto ya no es teoría. Los modelos híbridos — arquitecturas que combinan la atención del Transformer con capas SSM — ya están llegando a producción:

Nemotron-H de NVIDIA reemplazó el 92% de las capas de atención con bloques Mamba2, entregando hasta 3x más rendimiento comparado con Transformers puros como LLaMA-3.1 y Qwen-2.5, igualando o superando la precisión en benchmarks estándar. Publicado como código abierto.
Jamba 1.5 de AI21 escaló una arquitectura híbrida Transformer-Mamba-MoE a 398 mil millones de parámetros totales con 94 mil millones activos, soportando ventanas de contexto de 256K tokens. La proporción: una capa Transformer por cada siete capas Mamba.
Phi-4-mini-flash-reasoning de Microsoft introdujo SambaY, una arquitectura decoder-hybrid-decoder que combina Mamba, atención de ventana deslizante y una novedosa Gated Memory Unit. Con 3.800 millones de parámetros, alcanzó un rendimiento comparable a modelos del doble de su tamaño — con 10x más rendimiento.
Bamba-9B de IBM redujo el tamaño del modelo de 18GB a 9GB mediante cuantización, manteniendo un rendimiento comparable al de LLaMA-3.1 8B.

El patrón es consistente: las arquitecturas híbridas igualan la precisión del Transformer a una fracción del costo de inferencia, especialmente en secuencias largas. El consenso que se está formando en la comunidad investigadora no es “Transformers vs. SSMs” — es “¿cuánta atención necesitas realmente, y dónde?”

El cambio más profundo: un aprendizaje que no se detiene

La inferencia más rápida y el entrenamiento más barato son importantes. Pero la línea de investigación más radical apunta a algo completamente distinto.

Los modelos de lenguaje de hoy tienen una limitación fundamental: son estáticos después del entrenamiento. Su conocimiento se congela en una fecha de corte. Sus pesos no se actualizan cuando los usas. Cada conversación comienza desde la misma instantánea congelada del mundo. Es como tener un colega con una memoria perfecta de todo lo que leyó en la universidad — pero que no ha aprendido una sola cosa desde que se graduó.

Nested Learning, publicado por Google Research en NeurIPS 2025 (Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni — el mismo equipo detrás de Titans), propone algo herético: la distinción entre la arquitectura de un modelo y su algoritmo de entrenamiento es una ilusión. Son la misma cosa — niveles anidados de optimización, cada uno con su propio flujo de información y frecuencia de actualización.

La consecuencia práctica: puedes diseñar modelos con un sistema de memoria continuo — módulos que se actualizan a distintas velocidades. Algunos se actualizan con cada token (memoria de trabajo, rápida). Otros se actualizan lentamente, consolidando conocimiento a lo largo de miles de pasos (memoria a largo plazo). El modelo no solo procesa datos — aprende continuamente de ellos, en múltiples escalas de tiempo simultáneamente.

Su arquitectura de prueba de concepto, Hope, es un modelo recurrente auto-modificable que puede literalmente aprender sus propias reglas de actualización durante la inferencia. Superó a Transformers y Titans en modelado de lenguaje, razonamiento de sentido común y tareas de contexto largo.

Luego, en mayo de 2025, el mismo equipo publicó ATLAS, que introdujo los DeepTransformers — una generalización estricta de la arquitectura Transformer original con memoria optimizada. ATLAS alcanzó más del 80% de precisión con 10 millones de tokens de contexto en el benchmark BABILong. Diez millones de tokens. Eso equivale a aproximadamente 15.000 páginas de texto.

Este es un solo equipo, dentro de Google Research, publicando tres papers en un año, cada uno construyendo sobre el anterior. No es producción académica dispersa. Es un programa de investigación.

El concepto que cambia la economía

Aquí es donde esto se vuelve interesante para cualquiera que se preocupe por el negocio de la IA — lo que debería ser todo el mundo.

Entrenar un modelo de frontera hoy es un evento. Una quema masiva y concentrada de cómputo que cuesta cientos de millones de dólares y tarda meses. Si quieres un modelo mejor, en gran medida tienes que empezar de nuevo. Cada mejora requiere otra enorme inversión inicial.

Nested Learning sugiere un modelo diferente: distribuir el aprendizaje en el tiempo. En lugar de quemar todo tu cómputo por adelantado en una sola corrida de entrenamiento, hacer que el modelo mejore continuamente mientras opera. Cada ciclo de inferencia se convierte en un pequeño paso de aprendizaje. El costo de la mejora pasa de ser un gasto de capital masivo a un flujo operativo distribuido.

Esto no elimina el entrenamiento. Aún necesitas un modelo base sólido. Pero cambia fundamentalmente la economía de mantener ese modelo actualizado, relevante y en mejora.

Y este concepto — aprender a través de la iteración, no solo de la ejecución — ya está apareciendo en productos, aunque la implementación subyacente todavía no use estas arquitecturas directamente.

Donde ya está ocurriendo

Jitro de Google — el nombre interno de Jules V2, su agente de programación de próxima generación — fue revelado hace unos días. Su posicionamiento: “Escribirle prompts manualmente a tus agentes es tan… 2025.” En lugar de definir tareas específicas, los desarrolladores establecen objetivos de alto nivel — mejorar la cobertura de pruebas, reducir la latencia, aumentar el cumplimiento de accesibilidad — y el agente identifica autónomamente qué necesita cambiar en el código base e itera hacia el objetivo. Tiene su propio espacio de trabajo persistente. Mantiene metas, perspectivas e historiales de actualización. No ejecuta una vez y olvida — opera en un bucle, construyendo sobre iteraciones anteriores.

GLM-5.1 de Zhipu, lanzado hace dos días, va más allá. El modelo puede manejar autónomamente una sola tarea de programación durante hasta ocho horas — planificando, ejecutando, probando y optimizando en un bucle continuo. Su paper técnico describe novedosos algoritmos RL asíncronos de Agent diseñados específicamente para aprender de interacciones de largo alcance. El modelo fue entrenado íntegramente en chips Huawei Ascend — cero hardware NVIDIA — y su API cuesta aproximadamente entre 5 y 8 veces menos que los modelos de frontera occidentales comparables.

Ninguno de estos productos ha confirmado usar arquitecturas Nested Learning o Hope bajo el capó. Es posible que usen Transformers con andamiaje sofisticado — frameworks de agentes, cadenas de herramientas, bases de datos de estado externas. Pero el concepto es el mismo: modelos que iteran, recuerdan y se autocorrigen con el tiempo, en lugar de modelos que responden a un único prompt y olvidan.

El enfoque de andamiaje funciona. Pero es frágil y costoso. Una arquitectura que haga esto de forma nativa — que aprenda continuamente por diseño y no por ingeniería externa — sería fundamentalmente más eficiente. Y eso es exactamente lo que Google Research está construyendo.

La conexión con ai-2027.com

Esta trayectoria se alinea con precisión con el escenario trazado por ai-2027.com — el detallado mapa de ruta hacia la AGI elaborado por el ex investigador de OpenAI Daniel Kokotajlo y Scott Alexander. Su cronología describe agentes de IA que progresivamente automatizan la propia investigación en IA: cada generación de agentes ayuda a construir la siguiente, más rápido y más barato.

Para mediados de 2026 en su escenario, la IA alcanza un multiplicador de investigación de 1,5x — una semana de trabajo asistido por agentes produce lo que antes tomaba 1,5 semanas. Para marzo de 2027, surgen los “programadores superhumanos”. Para finales de 2027, el multiplicador llega a 50x.

Para que ese escenario se materialice, necesitas exactamente lo que describe Nested Learning: modelos que no solo ejecuten instrucciones sino que aprendan de sus propias iteraciones. Modelos donde cada ciclo de trabajo hace que el siguiente sea un poco mejor. Modelos que cierren el bucle entre la acción y la mejora.

Las empresas que resuelvan esto primero — que hagan que cada ciclo de inferencia cuente como aprendizaje — son las que podrán subirse a la curva exponencial. Las que siguen quemando cientos de millones por corrida de entrenamiento están comprando boletos de lotería.

Quién está bien posicionado y quién está expuesto

Google tiene tanto la investigación fundamental (el equipo de Behrouz: Titans → Nested Learning → Hope → ATLAS) como los productos que la necesitan (Jitro, Gemini). Tienen capital paciente, propiedad de infraestructura y ninguna presión existencial para monetizar cada avance de inmediato. Pueden darse el lujo de dejar que esta investigación madure.

Los laboratorios chinos — en particular Zhipu (GLM-5.1) y DeepSeek — están demostrando que la restricción genera innovación. Entrenando en hardware doméstico a una fracción del costo occidental, están alcanzando el 95% del rendimiento de frontera al 15% del precio. Los bucles de programación autónoma de 8 horas de GLM-5.1 no son un truco — son una demostración de que la operación continua es viable hoy.

OpenAI y Anthropic siguen enfocados en escalar el paradigma Transformer. Modelos más grandes, más cómputo, precios de suscripción más altos. Esto funciona mientras la fuerza bruta se mantenga por delante de la eficiencia. Pero a medida que la calidad de los modelos converge — y lo está haciendo — la ventaja pasa de quién tiene más H100s a quién tiene la mejor arquitectura.

La verdadera frontera ya no es el mejor puntaje en un benchmark. Es el mejor bucle de aprendizaje.

Qué significa esto para ti

Si estás pagando $20 al mes por una suscripción de IA, esto es lo que importa: el modelo que usas hoy fue congelado hace meses. No aprende de tus conversaciones. No mejora a partir de sus errores. Cada sesión comienza desde cero.

La próxima generación de IA no funcionará de esa manera. Los modelos que aprenden continuamente, que mejoran con el uso, que distribuyen su costo de entrenamiento en el tiempo en lugar de concentrarlo en una quema masiva única — están llegando. Serán más rápidos, más baratos de operar y más capaces con el tiempo, en lugar de estáticos.

La pregunta es quién los construye primero, y si tendrás que pagar $200 al mes por lo que debería costar $20 — o si la competencia de los laboratorios chinos obliga a que los precios reflejen la economía real.

Estaremos atentos. Para eso son los viernes.

Esta es la primera edición de la serie de los viernes de The Frontier View — una mirada semanal a la investigación y las aplicaciones que dan forma al próximo capítulo de la IA. Los posts de miércoles y domingo continúan con nuestro análisis editorial habitual.

Fuentes

Papers referenciados:

Mamba (Gu & Dao, 2023): arXiv 2312.00752
Mamba-2 / State Space Duality (Dao & Gu, 2024): arXiv 2405.21060
Mamba-3 (Lahoti et al., 2026): arXiv 2603.15569 — ICLR 2026
Titans (Behrouz et al., 2024): arXiv 2501.00663 — NeurIPS 2025
Nested Learning (Behrouz et al., 2025): arXiv 2512.24695 — NeurIPS 2025
ATLAS (Behrouz et al., 2025): arXiv 2505.23735
Infini-Attention (Google, 2024): arXiv 2404.07143
Multi-token Prediction (Meta, 2024): arXiv 2404.19737
DeepSeek-V3 (2024): arXiv 2412.19437
GLM-5 Technical Report (Zhipu/Tsinghua, 2026): arXiv 2602.15763

Productos y anuncios:

Jitro / Jules V2: testingcatalog.com, 6 de abril de 2026
GLM-5.1: techbriefly.com, 8 de abril de 2026
Nemotron-H: NVIDIA, publicado como código abierto en Hugging Face
Jamba 1.5: AI21 Labs
Phi-4-mini-flash-reasoning / SambaY: Microsoft, julio de 2025
Escenario de ai-2027.com: Daniel Kokotajlo & Scott Alexander