O Transformer Não Está Morto — Seu Monopólio Sim

E a verdadeira corrida já não é mais sobre quem tem mais GPUs.

Todo grande modelo de IA que você usa hoje — ChatGPT, Claude, Gemini, Grok — roda sobre a mesma arquitetura fundamental: o Transformer. Apresentado em 2017 pelo paper “Attention Is All You Need”, do Google, ele domina a IA há quase uma década com uma ideia única e elegante: deixar que cada palavra em uma sequência preste atenção a todas as outras palavras simultaneamente.

Funcionou. Brilhantemente.

Mas esse brilho tem um preço. A atenção escala de forma quadrática com o tamanho da sequência. Dobra a janela de contexto, quadruplica o custo computacional. Com 100.000 tokens, o custo vira uma restrição real. Com um milhão de tokens, torna-se proibitivo. E treinar um modelo de ponta do zero — o tipo de escala na força bruta que gerou o GPT-4 e o Claude Opus — hoje custa centenas de milhões de dólares por rodada.

A resposta atual da indústria de IA para esse problema é simples: jogar mais hardware nisso. Mais H100s. Clusters maiores. Data centers maiores. Mais energia.

Mas e se a resposta não for mais GPUs? E se for uma arquitetura melhor?

Os desafiantes

Nos últimos dois anos, uma família de arquiteturas alternativas amadureceu silenciosamente, passando de curiosidade acadêmica a realidade pronta para produção. Elas compartilham uma tese comum: o mecanismo de atenção quadrática do Transformer não é apenas caro — é desnecessário para muitas das coisas que precisamos que a IA faça.

Mamba, apresentado no final de 2023 por Albert Gu e Tri Dao, substituiu a atenção por completo por espaços de estado seletivos — um mecanismo emprestado da teoria de controle que processa sequências em tempo linear. Um modelo Mamba-3B superou Transformers do mesmo tamanho e se equiparou a modelos com o dobro de parâmetros. Em março de 2026, o Mamba chegou à versão 3, publicada no ICLR 2026, com um design focado em inferência que alcança perplexidade comparável ao Mamba-2 usando metade do tamanho de estado.

Titans, do Google Research (Ali Behrouz et al., dezembro de 2024), introduziu um módulo de memória neural de longo prazo que aprende a memorizar com base na surpresa — eventos que violam expectativas são armazenados de forma mais persistente. Apresentado no NeurIPS 2025, o Titans escalou para janelas de contexto de mais de 2 milhões de tokens com precisão superior à dos Transformers em tarefas de busca em agulha no palheiro.

Infini-Attention (Google, abril de 2024) estendeu o Transformer em direção a um contexto efetivamente infinito ao comprimir informações passadas em um banco de memória persistente, sugerindo que o Transformer pode mutar em vez de desaparecer.

Predição multi-token (Meta, 2024) atacou uma premissa diferente: em vez de prever um token de cada vez, prever vários simultaneamente. O DeepSeek-V3 adotou essa técnica, e os ganhos de eficiência foram substanciais.

Nenhum deles é uma solução mágica. Cada um aborda uma limitação diferente. Mas juntos, eles pintam um quadro claro: a era do Transformer como única arquitetura viável chegou ao fim.

Dos papers para a produção

Isso não é mais teoria. Modelos híbridos — arquiteturas que combinam atenção do Transformer com camadas SSM — já estão em produção:

Nemotron-H da NVIDIA substituiu 92% das camadas de atenção por blocos Mamba2, entregando até 3x mais throughput em comparação com Transformers puros como LLaMA-3.1 e Qwen-2.5, igualando ou superando a precisão em benchmarks padrão. Publicado como open source.
Jamba 1.5 da AI21 escalou uma arquitetura híbrida Transformer-Mamba-MoE para 398 bilhões de parâmetros totais com 94 bilhões ativos, suportando janelas de contexto de 256K tokens. A proporção: uma camada Transformer para cada sete camadas Mamba.
Phi-4-mini-flash-reasoning da Microsoft introduziu o SambaY, uma arquitetura decoder-hybrid-decoder que combina Mamba, atenção de janela deslizante e uma nova Gated Memory Unit. Com 3,8 bilhões de parâmetros, alcançou desempenho comparável ao de modelos com o dobro do seu tamanho — com 10x mais throughput.
Bamba-9B da IBM reduziu o tamanho do modelo de 18GB para 9GB via quantização, mantendo desempenho comparável ao LLaMA-3.1 8B.

O padrão é consistente: arquiteturas híbridas igualam a precisão dos Transformers a uma fração do custo de inferência, especialmente em sequências longas. O consenso que se forma na comunidade de pesquisa não é “Transformers vs. SSMs” — é “quanta atenção você realmente precisa, e onde?”

A mudança mais profunda: um aprendizado que não para

Inferência mais rápida e treinamento mais barato são importantes. Mas a linha de pesquisa mais radical aponta para algo completamente diferente.

Os modelos de linguagem de hoje têm uma limitação fundamental: são estáticos após o treinamento. Seu conhecimento congela em uma data de corte. Seus pesos não se atualizam quando você os usa. Cada conversa começa a partir do mesmo snapshot congelado do mundo. É como ter um colega com uma memória perfeita de tudo que leu na faculdade — mas que não aprendeu uma única coisa desde que se formou.

Nested Learning, publicado pelo Google Research no NeurIPS 2025 (Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni — o mesmo time por trás do Titans), propõe algo herético: a distinção entre a arquitetura de um modelo e seu algoritmo de treinamento é uma ilusão. São a mesma coisa — níveis aninhados de otimização, cada um com seu próprio fluxo de informação e frequência de atualização.

A consequência prática: você pode projetar modelos com um sistema de memória contínuo — módulos que se atualizam em ritmos diferentes. Alguns se atualizam a cada token (memória de trabalho, rápida). Outros se atualizam devagar, consolidando conhecimento ao longo de milhares de passos (memória de longo prazo). O modelo não apenas processa dados — ele aprende continuamente a partir deles, em múltiplas escalas de tempo simultaneamente.

Sua arquitetura de prova de conceito, Hope, é um modelo recorrente auto-modificável que literalmente aprende suas próprias regras de atualização durante a inferência. Superou Transformers e Titans em modelagem de linguagem, raciocínio de senso comum e tarefas de contexto longo.

Depois, em maio de 2025, o mesmo time lançou o ATLAS, que introduziu os DeepTransformers — uma generalização estrita da arquitetura Transformer original com memória otimizada. O ATLAS alcançou mais de 80% de precisão com 10 milhões de tokens de contexto no benchmark BABILong. Dez milhões de tokens. Isso equivale a cerca de 15.000 páginas de texto.

É um único time, dentro do Google Research, publicando três papers em um ano, cada um construindo sobre o anterior. Isso não é produção acadêmica dispersa. É um programa de pesquisa.

O conceito que muda a economia

É aqui que a coisa fica interessante para qualquer pessoa que se preocupa com o negócio de IA — o que deveria ser todo mundo.

Treinar um modelo de ponta hoje é um evento. Uma queima massiva e concentrada de poder computacional que custa centenas de milhões de dólares e leva meses. Se você quer um modelo melhor, basicamente recomeça do zero. Cada melhoria exige outro investimento inicial enorme.

O Nested Learning sugere um modelo diferente: distribuir o aprendizado ao longo do tempo. Em vez de queimar todo o seu poder computacional de uma vez em uma única rodada de treinamento, fazer o modelo melhorar continuamente enquanto opera. Cada ciclo de inferência vira um pequeno passo de aprendizado. O custo da melhoria muda de uma despesa de capital massiva para um fluxo operacional distribuído.

Isso não elimina o treinamento. Você ainda precisa de um modelo base sólido. Mas muda fundamentalmente a economia de manter esse modelo atualizado, relevante e em evolução.

E esse conceito — aprender por meio de iteração, não apenas de execução — já está aparecendo em produtos, mesmo que a implementação subjacente ainda não use diretamente essas arquiteturas.

Onde já está acontecendo

Jitro, do Google — o codinome interno do Jules V2, seu agente de programação de próxima geração — foi revelado há alguns dias. Seu posicionamento: “Ficar escrevendo prompts para os seus agentes é tão… 2025.” Em vez de definir tarefas específicas, os desenvolvedores estabelecem objetivos de alto nível — melhorar a cobertura de testes, reduzir latência, aumentar a conformidade com acessibilidade — e o agente identifica autonomamente o que precisa mudar no código e itera em direção ao objetivo. Ele tem seu próprio espaço de trabalho persistente. Mantém metas, insights e históricos de atualização. Não executa uma vez e esquece — opera em loop, construindo sobre iterações anteriores.

GLM-5.1 da Zhipu, lançado há dois dias, vai ainda mais longe. O modelo consegue lidar autonomamente com uma única tarefa de programação por até oito horas — planejando, executando, testando e otimizando em um loop contínuo. Seu paper técnico descreve novos algoritmos RL assíncronos de Agent projetados especificamente para aprender a partir de interações de longo horizonte. O modelo foi treinado inteiramente em chips Huawei Ascend — zero hardware NVIDIA — e sua API custa aproximadamente de 5 a 8 vezes menos do que modelos ocidentais de ponta comparáveis.

Nenhum desses produtos confirmou usar arquiteturas Nested Learning ou Hope por baixo do capô. Podem muito bem estar usando Transformers com scaffolding sofisticado — frameworks de agentes, cadeias de ferramentas, bancos de dados de estado externos. Mas o conceito é o mesmo: modelos que iteram, lembram e se autocorrigem ao longo do tempo, em vez de modelos que respondem a um único prompt e esquecem.

A abordagem de scaffolding funciona. Mas é frágil e cara. Uma arquitetura que faça isso nativamente — que aprenda continuamente por design, e não por engenharia externa — seria fundamentalmente mais eficiente. E é exatamente isso que o Google Research está construindo.

A conexão com ai-2027.com

Essa trajetória se alinha com precisão ao cenário mapeado pelo ai-2027.com — o detalhado roteiro para a AGI elaborado pelo ex-pesquisador da OpenAI Daniel Kokotajlo e Scott Alexander. Sua linha do tempo descreve agentes de IA que progressivamente automatizam a própria pesquisa em IA: cada geração de agentes ajuda a construir a próxima, mais rápido e mais barato.

Em meados de 2026, no cenário deles, a IA alcança um multiplicador de pesquisa de 1,5x — uma semana de trabalho assistido por agentes produz o que antes levava 1,5 semana. Em março de 2027, surgem os “programadores sobre-humanos”. No final de 2027, o multiplicador chega a 50x.

Para esse cenário se concretizar, você precisa exatamente do que o Nested Learning descreve: modelos que não apenas executam instruções, mas aprendem com suas próprias iterações. Modelos onde cada ciclo de trabalho torna o próximo ciclo um pouco melhor. Modelos que fecham o loop entre ação e melhoria.

As empresas que resolverem isso primeiro — que fizerem cada ciclo de inferência contar como aprendizado — são as que vão cavalgar a curva exponencial. As que ainda estão queimando centenas de milhões por rodada de treinamento estão comprando bilhetes de loteria.

Quem está bem posicionado e quem está exposto

O Google tem tanto a pesquisa fundamental (o time de Behrouz: Titans → Nested Learning → Hope → ATLAS) quanto os produtos que precisam dela (Jitro, Gemini). Têm capital paciente, propriedade de infraestrutura e nenhuma pressão existencial para monetizar cada avanço imediatamente. Podem se dar ao luxo de deixar essa pesquisa amadurecer.

Os laboratórios chineses — em especial a Zhipu (GLM-5.1) e a DeepSeek — estão provando que a restrição gera inovação. Treinando em hardware doméstico a uma fração do custo ocidental, eles estão chegando a 95% do desempenho de ponta a 15% do preço. Os loops de programação autônoma de 8 horas do GLM-5.1 não são um truque — são uma demonstração de que a operação contínua já é viável hoje.

OpenAI e Anthropic continuam focadas em escalar o paradigma Transformer. Modelos maiores, mais poder computacional, preços de assinatura mais altos. Isso funciona enquanto a força bruta se mantiver à frente da eficiência. Mas à medida que a qualidade dos modelos converge — e está convergindo — a vantagem passa de quem tem mais H100s para quem tem a melhor arquitetura.

A verdadeira fronteira não é mais o melhor score num benchmark. É o melhor loop de aprendizado.

O que isso significa para você

Se você paga $20 por mês por uma assinatura de IA, eis o que importa: o modelo que você usa hoje foi congelado há meses. Ele não aprende com suas conversas. Não melhora com seus erros. Cada sessão começa do zero.

A próxima geração de IA não vai funcionar assim. Modelos que aprendem continuamente, que melhoram com o uso, que distribuem seu custo de treinamento ao longo do tempo em vez de concentrá-lo em uma única queima massiva — esses estão a caminho. Serão mais rápidos, mais baratos de operar e mais capazes ao longo do tempo, em vez de estáticos.

A questão é quem os constrói primeiro, e se você vai precisar pagar $200 por mês pelo que deveria custar $20 — ou se a concorrência dos laboratórios chineses vai forçar os preços a refletir a economia real.

Estaremos de olho. É para isso que existem as sextas-feiras.

Esta é a primeira edição da série de sextas-feiras da The Frontier View — um olhar semanal sobre a pesquisa e as aplicações que moldam o próximo capítulo da IA. Os posts de quarta e domingo continuam com nossa análise editorial habitual.

Fontes

Papers referenciados:

Mamba (Gu & Dao, 2023): arXiv 2312.00752
Mamba-2 / State Space Duality (Dao & Gu, 2024): arXiv 2405.21060
Mamba-3 (Lahoti et al., 2026): arXiv 2603.15569 — ICLR 2026
Titans (Behrouz et al., 2024): arXiv 2501.00663 — NeurIPS 2025
Nested Learning (Behrouz et al., 2025): arXiv 2512.24695 — NeurIPS 2025
ATLAS (Behrouz et al., 2025): arXiv 2505.23735
Infini-Attention (Google, 2024): arXiv 2404.07143
Multi-token Prediction (Meta, 2024): arXiv 2404.19737
DeepSeek-V3 (2024): arXiv 2412.19437
GLM-5 Technical Report (Zhipu/Tsinghua, 2026): arXiv 2602.15763

Produtos e anúncios:

Jitro / Jules V2: testingcatalog.com, 6 de abril de 2026
GLM-5.1: techbriefly.com, 8 de abril de 2026
Nemotron-H: NVIDIA, publicado como open source no Hugging Face
Jamba 1.5: AI21 Labs
Phi-4-mini-flash-reasoning / SambaY: Microsoft, julho de 2025
Cenário do ai-2027.com: Daniel Kokotajlo & Scott Alexander