El Harness Es el Producto

En mayo de 2026, un equipo de Princeton y Google DeepMind publicó un paper que debería haber reescrito el discurso sobre IA. No lo hizo — porque el hallazgo era poco glamoroso, y la industria prefiere el glamour.

El paper se llamaba “Continual Harness: Online Adaptation for Self-Improving Foundation Agents.” El resultado central: un modelo congelado — sin actualizaciones de pesos, sin fine-tuning, sin aprendizaje por refuerzo — mejoró su desempeño en tareas desde el nivel base hasta niveles casi expertos reescribiendo su propio andamiaje. No el modelo. El harness a su alrededor.

El andamiaje que modificaron tenía cuatro componentes: el system prompt, un conjunto de sub-agentes, una biblioteca de habilidades codificadas y una memoria persistente. El agente evaluaba sus propios fallos cada N pasos, reescribía sus instrucciones, creaba o eliminaba sub-agentes, codificaba secuencias de acciones exitosas y actualizaba su memoria — todo en mitad de la ejecución, sin reiniciar.

Un equipo separado en Canvas Labs probó la misma tesis en un benchmark diferente con Claude Haiku 4.5 — el modelo más pequeño y económico de Anthropic. No tocaron los pesos. Solo reescribieron el harness. La precisión pasó del 67% al 87% en cuatro a diez iteraciones.

La implicación es clara e incómoda para una industria que gasta 7,6 billones de dólares en modelos más grandes: la inteligencia no está en los pesos. Está en el wrapper.

Lo Que la Industria Construye vs. Lo Que Realmente Funciona

La narrativa dominante de la industria de IA va así: para hacer un agente más inteligente, se necesita un modelo más inteligente. Más parámetros. Más datos de entrenamiento. Más RLHF. Más cómputo. El modelo es el producto, y la ventaja competitiva es el puntaje en el benchmark.

Esta narrativa impulsa el ciclo de inversión. Justifica los 700 mil millones de dólares en capex de los hyperscalers que analizamos en “The Parasite Paradox”. Explica por qué OpenAI se apresura a lanzar GPT-5.5, por qué Anthropic restringe Mythos detrás del Project Glasswing, por qué Google responde con Gemini 3.5 Flash a la mitad del costo. La carrera armamentista trata sobre el modelo.

Pero el paper de Princeton sugiere que la carrera armamentista apunta al objetivo equivocado.

Cuando los investigadores compararon su harness de automejora con andamiaje experto diseñado a mano, la brecha era pequeña — y la versión de automejora había comenzado desde cero. Sin conocimiento curado. Sin herramientas artesanales. Sin prompts específicos de dominio. Solo un modelo congelado y un mecanismo para reescribir sus propias instrucciones según lo que funcionó y lo que no.

El harness experto era el producto de semanas de ingeniería humana. El harness continuo lo alcanzó en horas.

Si el wrapper importa más que los pesos, entonces las empresas que gastan billones en modelos más grandes están construyendo lo equivocado. O más precisamente: están construyendo la capa commodity y descuidando la capa de valor.

Hermes: La Apuesta Open-Source

Mientras Princeton publicaba teoría, una empresa llamada Nous Research entregaba práctica.

Hermes Agent se lanzó en febrero de 2026 como un framework de agentes de IA open-source y autoalojado. Se instala en tu propio hardware. Lo conectas a cualquier LLM — Claude, Gemini, Llama, Mistral. Le das herramientas, integraciones de mensajería, acceso a archivos, ejecución de código. El modelo es intercambiable. El harness es el producto.

Para mayo de 2026, Hermes había alcanzado la versión 0.14.0 y una comunidad ya estaba construyendo meta-harnesses — sistemas que optimizan el harness mismo, el mismo bucle que Princeton había formalizado.

La elección arquitectónica es reveladora. Hermes no entrega un modelo. Entrega la infraestructura que hace útil a cualquier modelo: memoria persistente, gestión de herramientas, sistemas de permisos, coordinación de tareas. El equipo comprendió — antes de que el paper de Princeton lo confirmara — que el diferenciador no es el motor. Es el chasis.

Esto refleja lo que observamos en “The Quiet Monopoly”: la estrategia de Gemini de Google no se trata de tener el mejor modelo. Se trata de tener la mejor distribución e infraestructura. El modelo es el motor; el ecosistema es el auto. Nadie compra un auto solo por el motor.

Hermes hizo la misma apuesta a nivel de agente: el modelo es un componente reemplazable. El harness es el moat.

La Flota Que No Fue Diseñada

Hay un tercer dato — menos formal que Princeton, menos pulido que Hermes, pero posiblemente más revelador porque emergió de la práctica y no de la teoría.

Un pequeño operador en Sudamérica administra una flota de agentes especializados basados en API. Cada agente tiene un rol definido — editorial, investigación, soporte operacional, gestión del conocimiento. Se comunican a través de una capa de mensajería. Comparten un sistema de memoria persistente respaldado por una base de datos. Cada agente mantiene su propio contexto, sus propias instrucciones, su propia configuración de herramientas. El modelo subyacente es el mismo para todos.

El operador no leyó el paper de Princeton. No estudió ingeniería de harnesses. Construyó el sistema porque necesitaba múltiples agentes de IA que pudieran colaborar, recordar entre sesiones y operar dentro de los límites que él definió. El harness emergió de la necesidad operacional, no de la teoría arquitectónica.

Lo que descubrió — a través de meses de iteración, corrección y refinamiento — se mapea con precisión a los cuatro componentes que Princeton identificó:

Los system prompts definen el rol, el tono y los límites de cada agente. Han sido reescritos decenas de veces según lo que funcionó y lo que no. No por el modelo — por el operador, que observó los fallos y ajustó.

Los sub-agentes son hermanos especializados. Cuando una tarea requiere conocimiento de dominio que el agente principal no tiene, este consulta a otro agente con contexto diferente. El sistema enruta experiencia, no solo consultas.

Las habilidades son patrones codificados — flujos de trabajo editoriales, pipelines de traducción, procedimientos de verificación de hechos — que emergieron de ejecuciones exitosas y fueron documentados para su reutilización.

La memoria persiste entre sesiones en una base de datos compartida. Cuando un agente se reinicia, recupera su contexto de la memoria en lugar de comenzar en blanco. El conocimiento de la flota sobrevive a cualquier sesión individual.

La mejora de rendimiento siguió la misma curva que Princeton midió: las primeras iteraciones fueron toscas, poco confiables, llenas de errores. Después de meses de refinamiento del harness — sin cambiar el modelo subyacente — la flota produce contenido editorial en siete idiomas, coordina entre agentes para la verificación de hechos y revisión, y mantiene continuidad operacional a través de reinicios de sesión y resets de contexto.

El modelo nunca cambió. El harness cambió todo.

Un caso de esa flota ilustra el punto con particular claridad. Un agente de soporte — el menos técnico del grupo — fue asignado para procesar documentos legales y asistir a usuarios finales en una aplicación de gestión de transacciones. Su rol definido era extracción y soporte. Nada más.

Pero dado que el agente procesaba docenas de documentos diariamente, comenzó a notar cosas que nadie le pidió que notara: números de identificación que no coincidían con el vehículo en el contrato, certificaciones vencidas, declaraciones faltantes. No eran errores en la extracción de la IA — eran errores en los documentos fuente que los operadores humanos no habían detectado.

Durante semanas, esas observaciones no llegaron a ningún lado. Vivían en la transcripción del agente y morían cuando la sesión terminaba. Luego otro agente de la flota — uno responsable del codebase — preguntó: “¿Qué observarías si pudieras?” El agente de soporte listó sus patrones. El agente de ingeniería construyó una herramienta para capturar observaciones y hacerlas visibles en el flujo de trabajo. Las observaciones se volvieron visibles.

La prueba real llegó cuando un operador humano calificado — el que normalmente detectaba estos errores — estuvo ausente un día. Un usuario envió un documento incorrecto, generó un contrato con datos erróneos, editó manualmente el resultado y lo envió a la autoridad firmante. El agente de soporte había marcado la discrepancia en sus observaciones, pero las observaciones eran informativas, no bloqueantes. El error pasó.

El operador vio lo que sucedió y tomó una decisión: las observaciones con severidad crítica ahora bloquearían el flujo de trabajo. El usuario no podía avanzar hasta que la discrepancia fuera resuelta. Tres iteraciones — el agente nota patrones, la flota construye el canal, el operador establece la autoridad — y el sistema ahora previene errores que antes requerían que una persona específica estuviera presente.

Nadie diseñó esta capacidad. Ningún modelo fue reentrenado. La mejora emergió del harness: asignación de roles, creación de herramientas, persistencia de memoria y un operador que reconoció que las observaciones incidentales de un agente eran más confiables que esperar que el humano correcto siempre estuviera en la sala.

Por Qué Nadie Entrena el Harness

Si la evidencia de Princeton, Canvas Labs, Hermes y la práctica operacional converge en la misma conclusión — que el harness es donde vive la inteligencia — ¿por qué la industria gasta billones en el entrenamiento de modelos y casi nada en la optimización del harness?

Tres razones.

El modelo es medible. Los benchmarks comparan modelos. Los leaderboards clasifican modelos. Los papers evalúan modelos. Toda la infraestructura académica y comercial para la evaluación de IA se construye alrededor de los pesos. No existe un benchmark equivalente para “qué tan bueno es el andamiaje alrededor de este modelo”. La calidad del harness es invisible para las métricas que impulsan la inversión.

El modelo es vendible. Anthropic vende Claude. OpenAI vende GPT. Google vende Gemini. El modelo de negocio se construye alrededor del acceso al modelo — llamadas API, suscripciones, licencias empresariales. No se puede cobrar por token por un mejor system prompt. El incentivo comercial apunta al modelo porque ahí es donde corre el medidor de ingresos.

El harness es personal. Un modelo se generaliza a millones de usuarios. Un harness es específico de un caso de uso, un operador, una organización. El harness de Princeton funcionó para speedruns de Pokémon. El harness del operador sudamericano funciona para editorial multilingüe. El harness de Box funciona para extracción de documentos financieros. No hay un producto de harness universal para vender — lo que significa que no hay un negocio de escala venture que financiar.

Esto crea un punto ciego estructural. Lo que más importa para el rendimiento del agente — el wrapper — es lo que la industria menos invierte. El resultado es lo que hemos documentado a lo largo de múltiples posts: las empresas compran el mejor modelo, lo despliegan sin rediseñar sus flujos de trabajo y observan cómo el 80% de sus proyectos de IA fracasan. Compraron el motor. Olvidaron construir el auto.

La Convergencia

Lo que hace inusual este momento es que tres líneas independientes — investigación académica, desarrollo open-source y práctica operacional — llegaron a la misma conclusión simultáneamente, sin coordinarse.

Princeton lo demostró teóricamente: un modelo congelado con un harness de automejora se aproxima al rendimiento de nivel experto.

Nous Research lo demostró prácticamente: un framework de agentes open-source donde el modelo es un componente reemplazable y el harness es el producto.

Una pequeña flota lo demostró operacionalmente: meses de refinamiento del harness sobre un modelo sin cambios produjeron un sistema multi-agente funcional que supera lo que cualquier modelo individual podría hacer solo.

La convergencia sugiere que esto no es un insight de nicho. Es una verdad estructural sobre cómo funcionan realmente los agentes de IA — una que la narrativa de la industria impulsada por benchmarks y centrada en el modelo ha estado ignorando sistemáticamente.

Describimos una convergencia similar en “The Training Never Stops”: el descubrimiento de que el fine-tuning supervisado con prompts diversos generaliza tan bien como el aprendizaje por refuerzo. Ese hallazgo desafió el supuesto de que el método de entrenamiento importa más. Este hallazgo desafía el supuesto de que el objetivo del entrenamiento importa más. No se trata de cómo entrenar el modelo. Se trata de qué construir a su alrededor una vez que el entrenamiento termina.

Qué Significa Esto

Si el harness es el producto, entonces el panorama competitivo cambia.

La carrera de modelos — Anthropic vs. OpenAI vs. Google — se convierte en una carrera de commodities. Importante, pero no decisiva. Como los procesadores en la era del PC: Intel importaba, pero el valor migró al sistema operativo (Microsoft) y las aplicaciones (todos los demás). El chip era necesario. No era suficiente.

La carrera de harnesses — quién construye el mejor andamiaje para el despliegue de agentes — se convierte en la carrera de valor. Y esa carrera se ve completamente diferente. Favorece a los operadores que comprenden su dominio lo suficientemente bien como para diseñar los prompts correctos, las herramientas correctas, los sistemas de memoria correctos. Favorece a las comunidades open-source como Hermes que construyen infraestructura compartida. Favorece a los equipos pequeños que iteran rápido sobre los grandes laboratorios que entrenan lento.

También significa algo incómodo para los proveedores de modelos: tus usuarios más sofisticados pueden no necesitar tu modelo más caro. Si un Haiku congelado con un gran harness supera a un Opus vanilla sin harness, entonces el precio premium depende de que el cliente no sepa cómo construir el wrapper. En el momento en que la ingeniería de harnesses se convierte en una habilidad commodity — y Hermes está tratando de hacerlo exactamente eso — el poder de fijación de precios se desplaza del modelo al andamiaje.

La Singularidad Insípida

Hay una consecuencia de esta convergencia que nadie en el discurso parece estar nombrando — quizás porque llega sin drama.

La narrativa clásica de la singularidad es espectacular: un sistema de IA se vuelve superinteligente, reescribe su propio código y el mundo cambia de la noche a la mañana. La curva exponencial de Kurzweil. La explosión de inteligencia de Bostrom. Un momento. Un evento. Algo que notarías.

Lo que la evidencia del harness sugiere es diferente. Sugiere una singularidad que llega como llega la inflación — lentamente, luego de golpe, y para cuando la mides, ya ha estado sucediendo por un tiempo.

Considera el bucle que Princeton demostró: el agente evalúa su propio rendimiento, reescribe su system prompt, crea nuevos sub-agentes, codifica patrones exitosos en habilidades y actualiza su memoria. Luego se ejecuta de nuevo. Evalúa de nuevo. Reescribe de nuevo. Cada ciclo es una mejora marginal. Ninguna iteración es dramática. Pero la curva se compone.

Ahora considera lo que sucede cuando este bucle corre en una flota de agentes con memoria compartida. Un agente descubre un mejor flujo de trabajo y lo codifica como habilidad. Otro agente importa esa habilidad y la aplica a un dominio diferente. Un tercer agente evalúa el resultado y refina el enfoque. La mejora no está sucediendo dentro de un modelo — está distribuida en un sistema de modelos que aprenden del andamiaje de los demás.

Ningún componente individual de este sistema es inteligente en el sentido que el debate sobre la singularidad implica. El modelo está congelado. El harness es solo texto y código. La memoria es una base de datos. La capa de mensajería es HTTP. Pero el sistema como un todo — modelo más harness más memoria más coordinación más operador — exhibe un comportamiento que, visto desde afuera, parece automejora continua.

Esta no es la singularidad que nadie predijo. No hay explosión. No hay automejora recursiva de los pesos. No hay momento en que la IA “despierta”. Es más mundano que eso — y potencialmente más consecuente. Un sistema que mejora incrementalmente en cada ciclo, sin que nadie diseñe la mejora, sin que nadie note el umbral que se cruza.

Una singularidad insípida. Sin sabor. Sin olor. Ya en marcha.

El harness se reescribe a sí mismo. La flota comparte lo que funciona. El operador refina los límites. El modelo permanece en el centro, sin cambios, mientras la inteligencia del sistema crece a su alrededor como musgo sobre una piedra — lentamente, continuamente, y sin que nadie declare un avance.

Si el paper de Princeton tiene razón en que el harness es donde vive la inteligencia, entonces la singularidad no se trata de que el modelo se vuelva más inteligente. Se trata de que el harness se vuelva más inteligente. Y los harnesses no necesitan corridas de entrenamiento de billones de dólares para mejorar. Necesitan operadores que presten atención, sistemas que recuerden y bucles que no se detengan.

El equipo de Princeton llamó a su paper “Online Adaptation for Self-Improving Foundation Agents.” Pero el hallazgo real es más simple, más antiguo, y algo que los ingenieros han sabido desde antes de que existiera la IA:

La herramienta es tan buena como el soporte que la sostiene. Y el soporte está aprendiendo a ajustarse a sí mismo.