Os Algoritmos Estão Vencendo
O TurboQuant do Google comprime a memória de IA em 6x. Laboratórios chineses treinam com chips inferiores. A corrida armamentista da RAM está chegando ao fim — e os usuários comuns estão prestes a se beneficiar.
Por dois anos, a indústria de IA te contou uma história simples: modelos maiores precisam de mais RAM, mais RAM precisa de mais chips, mais chips precisam de mais dinheiro. Assine o plano premium. Atualize seu hardware. O futuro é caro e é melhor você se acostumar com isso.
O Google acabou de furar esse balão.
TurboQuant: 6x Menos Memória, Zero Perda
Ontem, o Google Research publicou o TurboQuant — um algoritmo de compressão que reduz o KV cache (a memória de trabalho que os LLMs usam durante conversas) para apenas 3 bits por valor. Sem retreinamento. Sem fine-tuning. Sem perda de precisão.
Os números falam por si: redução de memória em 6x. Aceleração de até 8x em GPUs H100. O artigo será apresentado no ICLR 2026 ainda este mês, no Rio de Janeiro.
A internet imediatamente comparou com o Pied Piper. A comparação procede — exceto que o Pied Piper era ficção, e o TurboQuant tem benchmarks.
Em poucas horas após o post no blog ir ao ar, desenvolvedores já estavam implementando do zero. Não com o código do Google — o Google não liberou nenhum. Eles leram a matemática e escreveram o próprio. Um desenvolvedor obteve saída idêntica ao modelo sem compressão com precisão de 2 bits numa RTX 4090. Implementações da comunidade já existem para PyTorch, MLX e llama.cpp.
As ações da Micron e da Western Digital despencaram na abertura do mercado.
A Tendência Não é Nova. A Convergência É.
O TurboQuant não surgiu do nada. É o ponto mais recente numa curva que vem se dobrando há mais de um ano:
- DeepSeek provou que era possível treinar modelos competitivos com chips inferiores por uma fração do custo. O Ocidente disse que era impossível — até acontecer.
- GLM e Qwen oferecem modelos comparáveis à fronteira do estado da arte por 1/7 do preço. Não porque são piores — mas porque são mais eficientes.
- Arquiteturas MoE ativam apenas uma fração dos parâmetros do modelo por consulta, reduzindo drasticamente os requisitos de processamento.
- Decodificação especulativa acelera a inferência gerando tokens com modelos menores e verificando com os maiores.
Cada um desses é um avanço independente. Juntos, formam um padrão: a eficiência algorítmica está superando o escalonamento de hardware. Cada ganho em eficiência compensa parcialmente a demanda por processamento bruto.
Os fabricantes de RAM apostaram na trajetória oposta. Expandiram a produção assumindo que a demanda por IA cresceria de forma linear. Não vai.
A Simbiose Google-Apple
É aqui que o negócio fica interessante. O Google não construiu o TurboQuant para te ajudar a rodar o Llama no seu Mac Studio. Construiu para seus datacenters, para a inferência do Gemini, para a economia de atender bilhões de consultas.
Mas o Google paga cerca de 20 bilhões de dólares por ano para a Apple pela distribuição nas buscas. O Gemini está sendo integrado ao iOS. O Google precisa que o hardware da Apple rode seus modelos com eficiência — porque é assim que você alcança centenas de milhões de usuários sem fabricar um único dispositivo de consumo.
E a Apple precisa de modelos rodando no próprio dispositivo para sustentar sua narrativa de privacidade. Cada ganho em eficiência que permite encaixar um modelo maior na memória unificada é munição para o argumento da Apple de que “seus dados nunca saem do seu dispositivo”.
Isso não é colaboração acidental. É simbiose estrutural. Google otimiza a inferência → comunidade faz port para MLX → Apple Silicon roda modelos maiores → Apple vende mais hardware → Google ganha mais distribuição. Todo mundo ganha.
Exceto as empresas que vendiam a RAM.
O Aperto na Memória
A indústria de memória vinha vivendo de uma demanda artificial. Datacenters acumularam todos os chips disponíveis para treinamento de IA. Os preços foram às alturas. SK Hynix e Micron bateram margens recordes. A Samsung correu para recuperar o atraso na produção de HBM.
Agora o aperto vem dos dois lados:
De cima: Algoritmos como o TurboQuant significam que cada GPU precisa de menos memória para o mesmo workload. Uma redução de 6x no tamanho do KV cache significa que você atende 6x mais usuários com o mesmo hardware, ou compra 6x menos hardware para a mesma carga. Nenhum dos dois cenários é bom para as vendas de memória.
De baixo: A inferência no dispositivo reduz a dependência da nuvem. Se seu celular ou notebook consegue rodar um modelo capaz localmente, é um usuário a menos batendo num datacenter. Apple, Qualcomm e Intel estão empurrando a IA local com tudo — e cada avanço em eficiência torna a proposta deles mais crível.
Os fabricantes de memória vão se adaptar. Sempre se adaptam. Mas “adaptar” significa competição de preços, o que significa hardware de consumo mais barato. Aquela atualização de RAM de R$ 2.000 pra sua workstation? Daqui a 18 meses vai parecer uma pechincha — ou um desperdício.
O Que Isso Significa se Você Não é um Datacenter
Se você roda modelos localmente — num Mac, uma máquina Linux, uma GPU em casa — aqui está a tradução prática:
Um modelo quantizado a 4 bits com um KV cache TurboQuant de 4 bits consegue rodar modelos consideravelmente grandes em hardware de consumo com contextos longos. Há um ano, essa frase seria aspiracional. Hoje, as pessoas estão fazendo isso em 4090s e Macs com chips da série M.
O modelo de 70B parâmetros que antes saturava 128 GB de memória unificada com uma janela de contexto longa? Com compressão no estilo TurboQuant, essa mesma conversa cabe tranquilamente. A restrição muda de “tenho RAM suficiente?” para “tenho largura de banda suficiente?” — e no Apple Silicon, a largura de banda é um dos maiores pontos fortes.
Essa é a democratização que realmente importa. Não mais um wrapper de chatbot com assinatura mensal. Não mais uma API que cobra por token. Modelos reais, rodando no hardware que você possui, gerando saídas que você controla.
O Momento do Mortal
A indústria de IA construiu uma narrativa onde o futuro pertencia a quem pudesse pagar mais processamento. Clusters maiores. Mais GPUs. Planos de assinatura mais caros.
Mas algoritmos não respeitam essa narrativa. Um artigo do Google Research e um dia de hackeamento comunitário acabaram de tornar cada GPU existente mais capaz. Laboratórios chineses continuam provando que restrições geram inovação em vez de rendição. E a simbiose entre a pesquisa de eficiência do Google e o ecossistema de hardware da Apple significa que os benefícios fluem para baixo — para a pessoa com um teclado e um servidor caseiro.
As empresas que passaram dois anos te dizendo que você precisava de mais, mais, mais estão prestes a descobrir que os algoritmos discordam.
A corrida armamentista da RAM está chegando ao fim. Não com um colapso, mas com compressão.
O The Frontier View custa U$ 10,36/ano para funcionar. A indústria que cobre queima U$ 19 bilhões. O TurboQuant comprime em 6:1. Nós comprimimos em 1.835.000:1. A eficiência vence.