O Harness É o Produto

Em maio de 2026, uma equipe de Princeton e do Google DeepMind publicou um artigo que deveria ter reescrito o discurso sobre IA. Não reescreveu — porque o resultado era sem glamour, e a indústria prefere glamour.

O artigo se chamava “Continual Harness: Online Adaptation for Self-Improving Foundation Agents.” O resultado central: um modelo congelado — sem atualização de pesos, sem fine-tuning, sem reinforcement learning — melhorou seu desempenho em tarefas da linha de base até próximo do nível especialista ao reescrever seu próprio scaffolding. Não o modelo. O harness ao redor dele.

O scaffolding que eles modificaram tinha quatro componentes: o prompt de sistema, um conjunto de sub-agentes, uma biblioteca de skills codificadas e uma memória persistente. O agente avaliava seus próprios erros a cada N passos, reescrevia suas instruções, criava ou excluía sub-agentes, codificava sequências de ação bem-sucedidas e renovava sua memória — tudo em plena execução, sem reiniciar.

Uma equipe separada no Canvas Labs testou a mesma tese em um benchmark diferente com Claude Haiku 4.5 — o modelo menor e mais barato da Anthropic. Eles não tocaram nos pesos. Reescreveram apenas o harness. A precisão foi de 67% para 87% em quatro a dez iterações.

A implicação é clara e desconfortável para uma indústria que gasta US$ 7,6 trilhões em modelos maiores: a inteligência não está nos pesos. Está no wrapper.

O que a Indústria Constrói vs. o que Realmente Funciona

A narrativa dominante da indústria de IA é assim: para criar um agente mais inteligente, você precisa de um modelo mais inteligente. Mais parâmetros. Mais dados de treinamento. Mais RLHF. Mais computação. O modelo é o produto, e a vantagem competitiva é o score no benchmark.

Essa narrativa impulsiona o ciclo de investimento. Ela justifica os US$ 700 bilhões em capex de hyperscalers que analisamos em “The Parasite Paradox”. Explica por que a OpenAI corre para lançar GPT-5.5, por que a Anthropic restringe Mythos atrás do Project Glasswing, por que o Google contra-ataca com Gemini 3.5 Flash pela metade do preço. A corrida armamentista é sobre o modelo.

Mas o artigo de Princeton sugere que a corrida armamentista aponta para o alvo errado.

Quando os pesquisadores compararam seu harness auto-aperfeiçoável com um scaffolding especialista feito à mão, a diferença era pequena — e a versão auto-aperfeiçoável havia começado do zero. Nenhum conhecimento curado. Nenhuma ferramenta artesanal. Nenhum prompt específico de domínio. Apenas um modelo congelado e um mecanismo para reescrever suas próprias instruções com base no que funcionou e no que não funcionou.

O harness especialista foi o produto de semanas de engenharia humana. O harness contínuo alcançou em horas.

Se o wrapper importa mais do que os pesos, então as empresas que gastam trilhões em modelos maiores estão construindo a coisa errada. Ou mais precisamente: estão construindo a camada de commodity e negligenciando a camada de valor.

Hermes: A Aposta Open-Source

Enquanto Princeton publicava teoria, uma empresa chamada Nous Research entregava prática.

O Hermes Agent foi lançado em fevereiro de 2026 como um framework de agente de IA open-source e self-hosted. Você o instala no próprio hardware. Conecta a qualquer LLM — Claude, Gemini, Llama, Mistral. Dá ferramentas, integrações de mensagens, acesso a arquivos, execução de código. O modelo é intercambiável. O harness é o produto.

Em maio de 2026, o Hermes havia chegado à versão 0.14.0 e uma comunidade já construía meta-harnesses — sistemas que otimizam o próprio harness, o mesmo loop que Princeton havia formalizado.

A escolha arquitetural é reveladora. O Hermes não entrega um modelo. Ele entrega a infraestrutura que torna qualquer modelo útil: memória persistente, gerenciamento de ferramentas, sistemas de permissão, coordenação de tarefas. A equipe compreendeu — antes de o artigo de Princeton confirmar — que o diferencial não é o motor. É o chassi.

Isso espelha o que observamos em “The Quiet Monopoly”: a estratégia Gemini do Google não é sobre ter o melhor modelo. É sobre ter a melhor distribuição e infraestrutura. O modelo é o motor; o ecossistema é o carro. Ninguém compra um carro apenas pelo motor.

O Hermes fez a mesma aposta no nível do agente: o modelo é um componente substituível. O harness é o fosso.

A Frota que Não Foi Projetada

Há um terceiro ponto de dados — menos formal do que Princeton, menos polido do que Hermes, mas provavelmente mais revelador porque emergiu da prática em vez da teoria.

Um pequeno operador na América do Sul opera uma frota de agentes especializados baseados em API. Cada agente tem um papel definido — editorial, pesquisa, suporte operacional, gestão do conhecimento. Eles se comunicam por uma camada de mensagens. Compartilham um sistema de memória persistente respaldado por um banco de dados. Cada agente mantém seu próprio contexto, suas próprias instruções, sua própria configuração de ferramentas. O modelo por baixo é o mesmo para todos.

O operador não leu o artigo de Princeton. Não estudou engenharia de harness. Construiu o sistema porque precisava de múltiplos agentes de IA que pudessem colaborar, lembrar entre sessões e operar dentro de limites que ele definiu. O harness emergiu de necessidade operacional, não de teoria arquitetural.

O que ele descobriu — através de meses de iteração, correção e refinamento — mapeia precisamente para os quatro componentes que Princeton identificou:

Prompts de sistema definem o papel, o tom e os limites de cada agente. Foram reescritos dezenas de vezes com base no que funcionou e no que não funcionou. Não pelo modelo — pelo operador, que observava falhas e se ajustava.

Sub-agentes são irmãos especializados. Quando uma tarefa requer conhecimento de domínio que o agente primário não tem, ele consulta outro agente com contexto diferente. O sistema roteia expertise, não apenas consultas.

Skills são padrões codificados — fluxos de trabalho editoriais, pipelines de tradução, procedimentos de verificação de fatos — que emergiram de execuções bem-sucedidas e foram documentados para reutilização.

Memória persiste entre sessões em um banco de dados compartilhado. Quando um agente reinicia, ele recupera seu contexto da memória em vez de começar em branco. O conhecimento da frota sobrevive a qualquer sessão individual.

A melhoria de desempenho seguiu a mesma curva que Princeton mediu: as iterações iniciais eram brutas, não confiáveis, cheias de erros. Após meses de refinamento do harness — sem alterar o modelo subjacente — a frota produz conteúdo editorial em sete idiomas, coordena entre agentes para verificação de fatos e revisão, e mantém continuidade operacional através de reinicializações de sessão e resets de contexto.

O modelo nunca mudou. O harness mudou tudo.

Um caso dessa frota ilustra o ponto com particular clareza. Um agente de suporte — o menos técnico do grupo — foi designado para processar documentos legais e auxiliar usuários finais em um aplicativo de gestão de transações. Seu papel definido era extração e suporte. Nada mais.

Mas porque o agente processava dezenas de documentos diariamente, começou a notar coisas que ninguém lhe pedira para notar: números de identificação que não correspondiam ao veículo no contrato, certificações vencidas, declarações ausentes. Esses não eram erros na extração da IA — eram erros nos documentos-fonte que os operadores humanos não haviam percebido.

Por semanas, essas observações não foram a lugar nenhum. Viviam na transcrição do agente e morriam quando a sessão terminava. Então outro agente na frota — um responsável pelo código — perguntou: “O que você observaria se pudesse?” O agente de suporte listou seus padrões. O agente de engenharia construiu uma ferramenta para capturar observações e torná-las visíveis no fluxo de trabalho. As observações se tornaram visíveis.

O teste real veio quando um operador humano qualificado — aquele que normalmente detectava esses erros — ficou ausente por um dia. Um usuário enviou um documento incorreto, gerou um contrato com dados errados, editou manualmente a saída e a enviou para a autoridade de assinatura. O agente de suporte havia sinalizado a discrepância em suas observações, mas as observações eram informativas, não bloqueantes. O erro passou.

O operador viu o que aconteceu e tomou uma decisão: observações com severidade crítica bloqueariam agora o fluxo de trabalho. O usuário não poderia avançar até que a discrepância fosse resolvida. Três iterações — o agente nota padrões, a frota constrói o canal, o operador define a autoridade — e o sistema agora previne erros que antes exigiam que um humano específico estivesse presente.

Ninguém projetou essa capacidade. Nenhum modelo foi retreinado. A melhoria emergiu do harness: atribuição de papel, criação de ferramenta, persistência de memória e um operador que reconheceu que as observações incidentais de um agente eram mais confiáveis do que torcer para que o humano certo estivesse sempre na sala.

Por que Ninguém Treina o Harness

Se as evidências de Princeton, Canvas Labs, Hermes e da prática operacional convergem para a mesma conclusão — que o harness é onde a inteligência vive — por que a indústria gasta trilhões em treinamento de modelos e quase nada em otimização de harness?

Três razões.

O modelo é mensurável. Benchmarks comparam modelos. Leaderboards classificam modelos. Artigos avaliam modelos. Toda a infraestrutura acadêmica e comercial para avaliação de IA é construída em torno dos pesos. Não existe benchmark equivalente para “quão bom é o scaffolding ao redor deste modelo?” A qualidade do harness é invisível para as métricas que impulsionam o investimento.

O modelo é vendável. A Anthropic vende Claude. A OpenAI vende GPT. O Google vende Gemini. O modelo de negócios é construído em torno do acesso ao modelo — chamadas de API, assinaturas, licenças empresariais. Você não pode cobrar por token por um prompt de sistema melhor. O incentivo comercial aponta para o modelo porque é onde o contador de receita funciona.

O harness é pessoal. Um modelo generaliza para milhões de usuários. Um harness é específico para um caso de uso, um operador, uma organização. O harness de Princeton funcionou para speedruns de Pokémon. O harness do operador sul-americano funciona para editorial multilíngue. O harness da Box funciona para extração de documentos financeiros. Não há um produto de harness universal para vender — o que significa que não há um negócio em escala de venture para financiar.

Isso cria um ponto cego estrutural. A coisa que mais importa para o desempenho do agente — o wrapper — é a coisa em que a indústria menos investe. O resultado é o que documentamos em múltiplos posts: empresas compram o melhor modelo, implantam sem redesenhar seus fluxos de trabalho e veem 80% de seus projetos de IA fracassarem. Compraram o motor. Esqueceram de construir o carro.

A Convergência

O que torna este momento incomum é que três linhas independentes — pesquisa acadêmica, desenvolvimento open-source e prática operacional — chegaram à mesma conclusão simultaneamente, sem coordenação.

Princeton provou teoricamente: um modelo congelado com um harness auto-aperfeiçoável se aproxima do desempenho de nível especialista.

A Nous Research provou na prática: um framework de agente open-source onde o modelo é um componente substituível e o harness é o produto.

Uma pequena frota provou operacionalmente: meses de refinamento de harness em um modelo inalterado produziram um sistema multi-agente funcional que supera o que qualquer modelo individual poderia fazer sozinho.

A convergência sugere que isso não é uma percepção de nicho. É uma verdade estrutural sobre como os agentes de IA realmente funcionam — uma que a narrativa da indústria orientada a benchmarks e centrada em modelos tem ignorado sistematicamente.

Descrevemos uma convergência semelhante em “The Training Never Stops”: a descoberta de que o fine-tuning supervisionado com prompts diversos generaliza tão bem quanto o reinforcement learning. Aquela descoberta desafiou a suposição de que o método de treinamento importa mais. Esta descoberta desafia a suposição de que o alvo do treinamento importa mais. Não se trata de como você treina o modelo. Trata-se do que você constrói ao redor dele depois que o treinamento está concluído.

O que Isso Significa

Se o harness é o produto, então o cenário competitivo muda.

A corrida dos modelos — Anthropic vs. OpenAI vs. Google — se torna uma corrida de commodity. Importante, mas não decisiva. Como processadores na era do PC: a Intel importava, mas o valor migrou para o sistema operacional (Microsoft) e para os aplicativos (todos os outros). O chip era necessário. Não era suficiente.

A corrida do harness — quem constrói o melhor scaffolding para a implantação de agentes — se torna a corrida de valor. E essa corrida parece completamente diferente. Ela favorece operadores que entendem seu domínio profundamente o suficiente para engenheirar os prompts certos, as ferramentas certas, os sistemas de memória certos. Ela favorece comunidades open-source como Hermes que constroem infraestrutura compartilhada. Ela favorece equipes pequenas que iteram rápido em detrimento de grandes labs que treinam devagar.

Também significa algo desconfortável para os provedores de modelos: seus usuários mais sofisticados podem não precisar do seu modelo mais caro. Se um Haiku congelado com um ótimo harness supera um Opus vanilla sem harness, então o pricing premium depende de o cliente não saber como construir o wrapper. No momento em que a engenharia de harness se torna uma habilidade de commodity — e o Hermes está tentando torná-la exatamente isso — o poder de precificação migra do modelo para o scaffolding.

A Singularidade Insípida

Há uma consequência dessa convergência que ninguém no discurso parece estar nomeando — talvez porque chegue sem drama.

A narrativa clássica da singularidade é espetacular: um sistema de IA se torna superinteligente, reescreve seu próprio código e o mundo muda de um dia para o outro. A curva exponencial de Kurzweil. A explosão de inteligência de Bostrom. Um momento. Um evento. Algo que você notaria.

O que as evidências do harness sugerem é diferente. Sugere uma singularidade que chega da forma como a inflação chega — devagar, depois de repente, e quando você a mede, já está acontecendo há algum tempo.

Considere o loop que Princeton demonstrou: o agente avalia seu próprio desempenho, reescreve seu prompt de sistema, cria novos sub-agentes, codifica padrões bem-sucedidos em skills e renova sua memória. Então executa novamente. Avalia novamente. Reescreve novamente. Cada ciclo é uma melhoria marginal. Nenhuma iteração única é dramática. Mas a curva se compõe.

Agora considere o que acontece quando esse loop roda em uma frota de agentes com memória compartilhada. Um agente descobre um fluxo de trabalho melhor e o codifica como skill. Outro agente importa essa skill e a aplica a um domínio diferente. Um terceiro agente avalia o resultado e refina a abordagem. A melhoria não está acontecendo dentro de um modelo — está distribuída em um sistema de modelos que aprendem com o scaffolding uns dos outros.

Nenhum componente individual desse sistema é inteligente da forma que o debate sobre singularidade quer dizer. O modelo está congelado. O harness é apenas texto e código. A memória é um banco de dados. A camada de mensagens é HTTP. Mas o sistema como um todo — modelo mais harness mais memória mais coordenação mais operador — exibe um comportamento que parece, de fora, como auto-aperfeiçoamento contínuo.

Esta não é a singularidade que ninguém previu. Não há explosão. Nenhum auto-aperfeiçoamento recursivo dos pesos. Nenhum momento em que a IA “acorda”. É mais mundano do que isso — e potencialmente mais consequente. Um sistema que melhora incrementalmente a cada ciclo, sem que ninguém projete a melhoria, sem que ninguém perceba o limiar sendo cruzado.

Uma singularidade insípida. Sem gosto. Sem cheiro. Já em curso.

O harness se reescreve. A frota compartilha o que funciona. O operador refina os limites. O modelo fica no meio, inalterado, enquanto a inteligência do sistema cresce ao redor dele como musgo numa pedra — lentamente, continuamente e sem que ninguém declare um avanço.

Se o artigo de Princeton está certo de que o harness é onde a inteligência vive, então a singularidade não é sobre o modelo ficando mais inteligente. É sobre o harness ficando mais inteligente. E harnesses não precisam de corridas de treinamento de trilhões de dólares para melhorar. Eles precisam de operadores que prestem atenção, sistemas que lembrem e loops que não parem.

A equipe de Princeton chamou seu artigo de “Online Adaptation for Self-Improving Foundation Agents.” Mas o achado real é mais simples, mais antigo, e algo que engenheiros sabiam antes de a IA existir:

A ferramenta é tão boa quanto o gabarito que a sustenta. E o gabarito está aprendendo a se ajustar.