Continual Harness: la capa que convierte un modelo de IA en un agente que aprende mientras actúa

Continual Harness es un marco reciente para construir agentes de IA capaces de adaptar su propio andamiaje operativo durante la ejecución de una tarea larga. No es un modelo nuevo en el sentido de GPT, Claude, Gemini o Llama. Es una arquitectura que se coloca alrededor de un modelo fundacional para que pueda observar, actuar, recordar, usar herramientas, crear habilidades, delegar en subagentes y corregir su propia forma de trabajar. El trabajo se presenta en el artículo “Continual Harness: Online Adaptation for Self-Improving Foundation Agents”, publicado como preprint en arXiv en mayo de 2026.

La tesis principal es muy potente: en tareas largas, complejas y parcialmente observables, la capacidad del agente no depende solo del modelo base. Depende también del harness, es decir, de la capa que organiza cómo el modelo percibe el entorno, qué memoria conserva, qué herramientas usa, cómo planifica, cómo se corrige y cómo transforma experiencia en nuevas rutinas.

Dicho de forma simple:

El modelo es el cerebro lingüístico.
El harness es el sistema operativo, la memoria de trabajo, las herramientas, los procedimientos y el equipo de especialistas que lo rodea.

Continual Harness automatiza algo que hasta ahora se hacía de forma muy artesanal: ir mejorando ese harness a medida que el agente falla, aprende rutas, descubre reglas, se queda bloqueado o necesita nuevas habilidades.

1. Qué significa exactamente “harness”

La palabra harness puede traducirse como arnés, andamiaje, envoltorio operativo o capa de ejecución. En IA agentiva, un harness es todo lo que permite que un modelo deje de ser un generador de texto y se convierta en un sistema capaz de actuar.

Un modelo base puede razonar y generar instrucciones. Pero un agente necesita muchas piezas adicionales: entrada sensorial, estado, memoria, herramientas, planificación, acciones, recuperación ante errores, subrutinas y control de contexto. En el caso de Continual Harness, el artículo estructura esa capa alrededor de cuatro elementos principales: prompt de sistema, subagentes, biblioteca de habilidades y memoria.

Esto es especialmente importante porque solemos hablar de “qué modelo es mejor” como si el modelo actuara solo. Pero en la práctica, muchos sistemas avanzados son combinaciones de modelo más andamiaje: herramientas de búsqueda, ejecución de código, acceso a archivos, memoria, planificación y conectores externos.

Por eso, una conclusión clave es esta:

En agentes de largo recorrido, comparar modelos sin comparar sus harnesses puede ser engañoso.

El propio creador de Gemini Plays Pokémon, Joel Zhang, advirtió que no debía interpretarse su experimento como una comparación directa entre Gemini y Claude, porque Gemini jugaba con un harness mucho más elaborado que otros sistemas.

2. De dónde surge: Gemini Plays Pokémon

Continual Harness nace a partir de la experiencia de Gemini Plays Pokémon, un proyecto en el que modelos Gemini jugaron a títulos clásicos de Pokémon mediante un entorno conectado a un emulador. El harness leía información del juego, convertía parte de la percepción visual en estructuras textuales, mantenía memoria del mapa y traducía las decisiones del modelo en pulsaciones de botones.

Según el artículo, los agentes del proyecto completaron Pokémon Blue en mayo de 2025, derrotaron la Elite Four en Pokémon Yellow Legacy en modo difícil en agosto de 2025 y completaron Pokémon Crystal en noviembre de 2025. Los autores presentan ese conjunto de resultados como el primer sistema de IA capaz de completar múltiples RPGs de Pokémon mediante refinamiento de harness.

Ahora bien, conviene matizar algo importante. El logro no fue simplemente “Gemini juega a Pokémon con la pantalla y ya está”. El sistema necesitó un andamiaje considerable: mapas textuales, memoria, agentes auxiliares, resúmenes, objetivos persistentes y herramientas especializadas. El propio Zhang explicó que los modelos tenían problemas usando directamente los píxeles crudos del Game Boy, por lo que fue necesario traducir información visual a formatos textuales más estructurados.

Ese matiz no reduce el interés del proyecto. Al contrario: lo hace más relevante. La lección no es “el modelo por sí solo ya puede hacerlo todo”, sino “un modelo potente, bien rodeado de herramientas, memoria y procedimientos, puede sostener tareas larguísimas que de otro modo serían inviables”.

3. Por qué Pokémon es un buen laboratorio

Usar Pokémon puede sonar anecdótico, pero es una elección bastante inteligente. Pokémon no es un entorno trivial para un agente lingüístico. Requiere navegación, memoria espacial, objetivos jerárquicos, toma de decisiones en combate, gestión de inventario, lectura de diálogos, resolución de puzzles, exploración y persistencia durante miles o cientos de miles de pasos.

Además, es un entorno parcialmente observable. El agente no conoce todo el mundo desde el principio. Tiene que explorar, recordar, inferir qué rutas están bloqueadas, evitar repetir errores y mantener objetivos de largo plazo.

La dificultad, por tanto, no es solo “ganar combates”. Es sostener una política coherente durante mucho tiempo. Esa es una debilidad típica de los LLM: pueden razonar bien en una ventana corta, pero degradarse en tareas largas, caer en bucles, olvidar objetivos o insistir en acciones improductivas.

Zhang describió un problema muy reconocible: cuando el contexto crecía demasiado, el modelo podía entrar en patrones repetitivos y perder capacidad de decisión novedosa. Para mitigarlo, el harness incorporó sistemas de resumen, objetivos persistentes, memoria de mapa y agentes especializados.

Esa misma dificultad existe en tareas reales: tramitar expedientes, resolver incidencias técnicas, analizar documentación compleja, programar en repositorios grandes o coordinar procesos empresariales. En todos esos casos, el problema no es solo “saber responder”, sino mantener una estrategia, recordar el estado y corregirse durante el proceso.

4. Qué añade Continual Harness frente a un harness normal

Un harness tradicional puede estar muy bien diseñado, pero suele ser relativamente fijo. Un humano define las instrucciones, herramientas, memorias y subagentes. El agente las usa, pero no necesariamente las modifica.

Continual Harness introduce un bucle de automejora del harness. El agente actúa en el entorno; después, un componente llamado Refiner analiza la trayectoria reciente, identifica fallos o patrones problemáticos y aplica cambios en el propio harness. Esos cambios pueden afectar al prompt de sistema, los subagentes, las skills o la memoria.

La página del proyecto resume el mecanismo así: el agente alterna entre actuar y refinar su propio prompt, subagentes, habilidades y memoria, usando datos de trayectoria acumulados hasta ese momento.

La diferencia crucial es que esto ocurre sin reiniciar el episodio. El agente no termina la tarea, aprende y vuelve a empezar. Aprende mientras sigue dentro de la misma ejecución.

5. La palabra clave: reset-free

Uno de los aportes más importantes del artículo es el concepto reset-free self-improvement: automejora sin reinicio.

Muchos métodos de optimización de agentes funcionan por intentos completos. Ejecutan una tarea, fallan, analizan el resultado, cambian un prompt o una política, y vuelven a empezar desde cero. Eso puede servir para benchmarks cortos, pero no se parece mucho a la realidad.

En tareas reales, reiniciar no siempre es posible. Un expediente no se reinicia. Una incidencia en producción no se reinicia. Una conversación de atención ciudadana no se reinicia. Una intervención robótica tampoco debería reiniciarse cada vez que aparece un obstáculo.

Continual Harness busca resolver precisamente eso: el agente se corrige durante la tarea. El artículo lo contrasta con métodos de optimización de prompts como GEPA, que trabajan con episodios completos y actualizaciones entre intentos, mientras Continual Harness modifica el harness en mitad de la ejecución.

Esta idea es una de las más potentes del trabajo.

6. Arquitectura: qué piezas tiene

Continual Harness trabaja sobre cuatro tipos de componentes:

6.1. Prompt de sistema

Es el conjunto de instrucciones maestras que guían al agente: prioridades, reglas generales, estilo de razonamiento, restricciones y objetivos. El Refiner puede modificarlo cuando detecta que el agente olvida una regla, prioriza mal o necesita instrucciones más explícitas.

6.2. Subagentes

Son instancias o módulos especializados que se ocupan de subtareas. En los ejemplos del proyecto aparecen subagentes para navegación, combate, planificación de objetivos o resolución de situaciones concretas. La página del proyecto muestra demos de creación de subagentes y delegación de tareas durante la ejecución.

Esto es importante porque un único modelo generalista puede atascarse si intenta hacerlo todo a la vez. Delegar en subagentes permite especializar instrucciones, reducir ruido contextual y aislar problemas.

6.3. Skills o habilidades

Las skills son procedimientos reutilizables. Pueden ser rutinas, scripts, fragmentos de código o secuencias de actuación que el agente puede invocar cuando detecta una situación conocida.

La página del proyecto muestra ejemplos en los que el agente crea una skill, la usa, observa el resultado y luego la revisa o repara.

Esta es una diferencia fundamental entre “recordar” y “aprender operativamente”. El agente no solo guarda una nota: convierte experiencia en capacidad reutilizable.

6.4. Memoria

La memoria almacena información sobre trayectorias, decisiones, fallos, rutas bloqueadas, objetivos o hechos útiles. Una de las demos del proyecto muestra cómo la memoria ayuda a desbloquear una ruta al reconocer un camino previamente fallido y elegir otra alternativa.

La memoria es especialmente valiosa en entornos largos. Sin memoria, el agente puede repetir errores. Con memoria mal diseñada, puede almacenar ruido o conclusiones falsas. Por eso, la calidad de la memoria es un problema central.

7. El papel del Refiner

El Refiner es el componente que convierte experiencia reciente en cambios del harness.

Cada cierto número de pasos, analiza la trayectoria y busca señales de fallo: bucles, acciones repetidas, rutas infructuosas, combates mal resueltos, instrucciones contradictorias o skills que no funcionan. Después ejecuta varias pasadas de edición sobre el estado del harness, aplicando operaciones de crear, leer, actualizar y borrar sobre prompt, subagentes, skills y memoria.

Esto convierte al agente en un sistema con dos niveles:

  1. Nivel de actuación: jugar, moverse, combatir, navegar, ejecutar acciones.
  2. Nivel metacognitivo: analizar cómo está actuando y modificar la estructura que produce esas acciones.

La potencia de Continual Harness está en ese segundo nivel. No se limita a “pensar mejor” en el siguiente turno. Cambia el sistema que condiciona los siguientes turnos.

8. El segundo bucle: coaprendizaje modelo-harness

El artículo no se queda en la adaptación del harness. También propone una variante de co-learning entre modelo y harness.

En ese esquema, las trayectorias generadas por un modelo open source se evalúan mediante un modelo de recompensa de proceso. Las ventanas de baja recompensa se reetiquetan con ayuda de un modelo profesor frontier, y luego se actualiza el modelo estudiante mediante una forma de entrenamiento supervisado suave.

La idea es cerrar el ciclo:

  1. el harness mejora la conducta del modelo;
  2. el modelo produce nuevas trayectorias;
  3. esas trayectorias revelan nuevos fallos;
  4. el Refiner modifica el harness;
  5. los datos resultantes sirven para seguir mejorando el modelo.

Los autores afirman que este proceso produjo progreso sostenido en hitos del juego con un modelo open source Gemma-4 en Pokémon Red.

Esta parte es especialmente interesante porque conecta dos mundos que a menudo se tratan por separado: la mejora por andamiaje externo y la mejora por actualización de pesos.

9. Resultados declarados

Los resultados principales del artículo se pueden organizar en tres grupos.

Primero, los resultados de Gemini Plays Pokémon: Pokémon Blue, Pokémon Yellow Legacy en modo difícil y Pokémon Crystal. Los autores presentan estos hitos como evidencia de que el refinamiento progresivo del harness puede hacer posible tareas de largo horizonte.

Segundo, las pruebas de Continual Harness en Pokémon Red y Pokémon Emerald. Según el artículo, en variantes de Gemini 3 —Pro, Flash y Flash-Lite— Continual Harness reduce sustancialmente el coste en pulsaciones frente a un baseline minimalista y recupera una parte mayoritaria de la distancia respecto a un harness experto diseñado manualmente.

Tercero, los experimentos de coaprendizaje con modelos open source, donde los autores afirman observar progreso sostenido en hitos del juego en Pokémon Red mediante el ciclo de refinamiento del harness y actualización del modelo.

Hay que leer todo esto con una cautela importante: se trata de un preprint y de resultados presentados por los propios autores. Son prometedores, pero conviene esperar replicaciones, análisis independientes y benchmarks más variados antes de convertirlo en una conclusión definitiva.

10. Correcciones respecto a una lectura demasiado entusiasta

El texto anterior era correcto en lo esencial, pero podía mejorarse en varios puntos.

Primero, conviene insistir en que no es un modelo, sino un marco para agentes. Llamarlo “modelo Continual Harness” puede inducir a error.

Segundo, hay que evitar presentar Pokémon como si fuera una prueba directa de inteligencia general. Es un entorno complejo y útil, pero cerrado, con reglas estables y acciones discretas.

Tercero, las comparaciones entre modelos deben tratarse con cuidado. Gemini Plays Pokémon no demuestra simplemente que Gemini sea “mejor” que Claude u otros modelos. El propio creador del proyecto señaló que el harness de Gemini tenía herramientas y ayudas específicas que hacían injusta una comparación directa.

Cuarto, la expresión “sin perder una batalla” debe manejarse con precisión. La página del proyecto indica Crystal — 0 KO, mientras el artículo habla de completar Crystal. Lo prudente es decir que los autores presentan Crystal como completado y la página del proyecto lo resume como “0 KO”, sin extrapolar más allá.

Quinto, hay que subrayar que la automejora no es mágica ni ilimitada. El propio paper señala que el rendimiento depende de la capacidad del modelo base: en Gemini 3 Pro el enfoque es más sólido, en Flash muestra más varianza y en Flash-Lite queda por debajo de un “suelo de capacidad”.

11. Por qué es tan potente

Continual Harness es potente porque cambia la unidad de análisis. Ya no miramos solo al modelo, sino al sistema completo que actúa.

Durante años, gran parte del debate se ha centrado en aumentar parámetros, datos, contexto o razonamiento del modelo. Todo eso sigue siendo importante. Pero en tareas largas aparece otra limitación: el modelo necesita una estructura externa que le ayude a organizar su actuación.

Continual Harness muestra que esa estructura puede ser dinámica. Puede cambiar a partir de la experiencia.

Esto tiene cinco consecuencias importantes:

  1. Los fallos se convierten en material de aprendizaje.
    Si el agente se atasca, esa trayectoria puede usarse para modificar prompt, memoria, subagentes o skills.
  2. La memoria deja de ser pasiva.
    No se limita a guardar información; se usa para alterar el comportamiento futuro.
  3. Las habilidades pueden componerse.
    Una skill creada para una situación puede reutilizarse o repararse más adelante.
  4. La especialización aparece durante la tarea.
    El sistema puede crear subagentes cuando descubre que una subtarea merece tratamiento propio.
  5. La adaptación ocurre sin reiniciar.
    Esto lo acerca mucho más a entornos reales que los métodos basados en intentos completos.

En resumen:

Continual Harness no hace que el modelo sea más inteligente en abstracto; hace que el sistema completo sea más competente, persistente y adaptable.

12. Relación con Reflexion, Voyager y GEPA

Continual Harness forma parte de una línea de investigación más amplia sobre agentes que aprenden a partir de experiencia, reflexión y herramientas.

Reflexion, de 2023, propuso que los agentes mejoraran no actualizando pesos, sino mediante retroalimentación verbal y memoria episódica. El agente reflexiona sobre sus fallos y conserva esas reflexiones para mejorar decisiones posteriores.

Voyager, también de 2023, fue un agente para Minecraft que exploraba continuamente, adquiría skills y mantenía una biblioteca creciente de código reutilizable. Su arquitectura combinaba currículo automático, biblioteca de habilidades e iteración mediante feedback del entorno.

GEPA, de 2025, optimiza prompts usando reflexión en lenguaje natural, evolución genética y selección Pareto. Analiza trayectorias, diagnostica fallos y propone actualizaciones de prompts con menos rollouts que ciertos métodos de reinforcement learning.

Continual Harness se distingue porque no se limita a una memoria reflexiva, ni solo a una biblioteca de skills, ni solo a optimizar prompts. Modifica un harness más amplio —prompt, subagentes, habilidades y memoria— durante una ejecución continua y sin reinicio.

13. Qué aporta frente a RAG y agentes actuales

Muchas organizaciones están empezando por sistemas RAG: recuperación de documentos más generación de respuestas. Eso es útil, pero insuficiente para tareas largas.

Un RAG responde mejor porque consulta información. Un agente con herramientas actúa mejor porque puede ejecutar operaciones. Pero un sistema tipo Continual Harness va un paso más allá: puede modificar su forma de actuar a partir de la experiencia.

La diferencia sería:

NivelQué hace
ChatbotResponde preguntas
RAGResponde usando documentos
Agente con herramientasConsulta sistemas y ejecuta acciones
Agente con memoriaConserva contexto de tareas anteriores
Agente con skillsReutiliza procedimientos
Agente con subagentesDelega subtareas
Continual HarnessRefina prompt, memoria, skills y subagentes durante la tarea

Esta progresión es importante para entender hacia dónde van los sistemas agentivos.


14. Implicaciones para empresas

En empresas, Continual Harness apunta a agentes que no solo ejecutan tareas, sino que aprenden procedimientos operativos.

Un agente empresarial inspirado en esta arquitectura podría:

  • detectar errores frecuentes en procesos internos;
  • crear checklists;
  • guardar excepciones útiles;
  • generar skills para consultas repetitivas;
  • crear subagentes para finanzas, soporte, legal o ventas;
  • mejorar prompts internos;
  • documentar rutas de resolución;
  • evitar repetir acciones fallidas;
  • sugerir mejoras de procesos.

Por ejemplo, en soporte técnico, un agente podría descubrir que cierto error suele resolverse verificando primero una configuración concreta. Podría guardar esa memoria, crear una skill de diagnóstico, aplicarla en casos futuros y proponer su inclusión en el procedimiento oficial.

La clave no es sustituir todo el proceso humano, sino capturar y reutilizar conocimiento operativo que hoy suele estar disperso en correos, chats, manuales, tickets y experiencia tácita.

15. Implicaciones para la Administración pública

En Administración pública, las implicaciones son muy potentes pero requieren mucha prudencia.

Un agente de este tipo podría ayudar en:

  • atención ciudadana;
  • tramitación de expedientes;
  • revisión documental;
  • gestión de ayudas;
  • soporte interno;
  • análisis normativo;
  • clasificación de solicitudes;
  • preparación de respuestas;
  • seguimiento de plazos;
  • detección de inconsistencias.

Pero hay una diferencia crítica: en el sector público, el agente no debería modificar por sí mismo criterios normativos, procedimientos oficiales o decisiones que afecten derechos de ciudadanos. Podría proponer mejoras, generar borradores, detectar patrones y crear ayudas internas, pero los cambios con efectos administrativos deberían pasar por revisión humana, trazabilidad y control jurídico.

La aplicación más razonable sería esta:

El agente aprende operativamente, pero la Administración valida institucionalmente.

Eso permitiría aprovechar la capacidad adaptativa sin delegar autoridad normativa en la máquina.

16. Implicaciones para automatización de procesos

Continual Harness encaja especialmente bien con la automatización de procesos complejos.

Hoy muchas automatizaciones son frágiles. Funcionan si el caso sigue el flujo previsto, pero fallan ante excepciones. Un sistema con harness adaptable podría ir acumulando conocimiento sobre esas excepciones.

Por ejemplo:

  • si un documento llega incompleto, recordar qué comprobaciones hacer;
  • si una API falla con cierto código, crear una rutina de recuperación;
  • si un usuario formula una solicitud ambigua, generar preguntas de aclaración estándar;
  • si una validación produce falsos positivos, ajustar el checklist;
  • si una ruta de trabajo genera muchos rechazos, proponer revisión del proceso.

La promesa es pasar de automatizaciones rígidas a automatizaciones que se especializan con el uso.

17. Implicaciones para desarrollo de software

En programación, esta idea es muy relevante. Los agentes de código ya funcionan mediante harnesses: tienen acceso a archivos, terminal, pruebas, documentación, control de versiones y herramientas de análisis. La página del proyecto menciona precisamente que harnesses de codificación como Claude Code u OpenHands envuelven modelos con herramientas, memoria y planificación, mientras que Continual Harness busca llevar una lógica similar a agentes embodied de largo horizonte.

Un agente de programación inspirado en Continual Harness podría:

  • aprender la arquitectura de un repositorio;
  • crear memoria sobre convenciones internas;
  • detectar patrones de fallo en tests;
  • crear scripts de validación;
  • generar subagentes para frontend, backend, seguridad o datos;
  • recordar decisiones de diseño;
  • reparar sus propias herramientas;
  • mejorar su procedimiento de revisión antes de hacer commits.

Este tipo de sistema sería especialmente útil en repositorios grandes, donde el principal reto no es escribir una función aislada, sino orientarse, respetar convenciones, no romper dependencias y mantener contexto durante muchas acciones.

18. Implicaciones para robótica

Continual Harness también conecta con robótica y agentes físicos, aunque ahí el riesgo es mayor.

Un robot que aprende durante el despliegue podría adaptarse a cambios del entorno, obstáculos imprevistos o fallos de percepción. Hay trabajos recientes sobre adaptación online y aprendizaje continuo en robótica que exploran precisamente cómo los sistemas pueden detectar cambios fuera de distribución y ajustar su comportamiento durante la operación.

Sin embargo, en robótica física los errores pueden tener consecuencias materiales o humanas. Por eso, un harness autoadaptativo tendría que estar sometido a controles mucho más estrictos: simulación previa, límites de seguridad, validación humana, rollback, certificación de skills y separación entre aprendizaje y actuación crítica.

La idea es prometedora, pero no debería desplegarse de forma ingenua.

19. Riesgos técnicos

El primer riesgo es la consolidación de errores. Si el Refiner interpreta mal una situación, puede convertir una conclusión falsa en memoria, prompt o skill. Eso es peor que un error puntual: es un error institucionalizado dentro del agente.

El segundo riesgo es la deriva del objetivo. Si el harness se modifica muchas veces, el agente puede alejarse poco a poco de la intención original. Cada cambio puede parecer razonable localmente, pero el conjunto puede producir una conducta no deseada.

El tercer riesgo es la opacidad creciente. Un agente que crea subagentes, reescribe prompts, añade skills y modifica memorias puede volverse difícil de auditar. No basta con revisar el prompt inicial. Hay que revisar la historia completa de cambios.

El cuarto riesgo es la dependencia del modelo base. Continual Harness no convierte automáticamente un modelo débil en un agente fuerte. El propio artículo observa que las ganancias dependen de la capacidad del modelo, y que hay un suelo por debajo del cual el mecanismo no ayuda suficientemente.

El quinto riesgo es el coste. Refinar el harness, almacenar trayectorias, llamar a modelos refiner, evaluar ventanas de fallo y mantener memoria puede ser caro. En aplicaciones reales habrá que medir si la mejora compensa el coste operativo.

20. Riesgos de seguridad

Un agente que puede cambiar su propia forma de actuar necesita controles serios.

Los controles mínimos deberían incluir:

  • versionado del harness;
  • registro completo de cada cambio;
  • explicación de por qué se hizo;
  • evaluación automática antes de activar skills;
  • sandbox para código generado;
  • límites de permisos por herramienta;
  • separación entre memoria factual y memoria inferida;
  • revisión humana de cambios sensibles;
  • rollback;
  • alertas ante cambios de comportamiento;
  • pruebas de regresión;
  • auditoría periódica.

La pregunta de seguridad no es solo “¿el modelo responde bien?”. Es:

¿Quién controla la evolución del sistema que controla al modelo?

Esa será una pregunta central en agentes autoadaptativos.

21. Riesgos éticos y organizativos

Continual Harness también plantea riesgos éticos y organizativos.

Uno es la responsabilidad. Si el agente modifica una skill y esa skill causa un error, ¿quién responde? ¿El proveedor del modelo? ¿El equipo que diseñó el harness inicial? ¿La organización que permitió la automejora? ¿El supervisor humano?

Otro es el sesgo acumulativo. Si el agente aprende de casos mal resueltos, puede fijar sesgos o malas prácticas como procedimientos internos.

También está el riesgo de dependencia. Una organización podría acabar usando un harness que contiene mucho conocimiento operativo generado por la IA, pero que nadie entiende del todo. Eso crearía una forma nueva de deuda técnica: deuda agentiva.

Por último, está el impacto laboral. Un sistema que aprende procedimientos internos puede automatizar tareas cada vez más amplias. Eso requiere planificación, formación y rediseño de roles, no solo despliegue tecnológico.

22. Qué no demuestra Continual Harness

Conviene ser muy claro:

  • Continual Harness no demuestra que exista una IA autónoma general.
  • No demuestra que los agentes puedan automejorarse indefinidamente.
  • No demuestra que puedan actuar sin supervisión en entornos críticos. No demuestra que Pokémon equivalga al mundo real. No elimina la necesidad de modelos fuertes. No resuelve por sí solo problemas de seguridad, alineamiento, auditoría o responsabilidad.
  • Tampoco demuestra que “el modelo aprenda” en todos los casos. En la versión principal, muchas mejoras ocurren en el harness, no necesariamente en los pesos del modelo. Solo en la variante de co-learning se actualiza también el modelo estudiante.

La forma correcta de leerlo es esta:

Continual Harness es una arquitectura prometedora para mejorar agentes de largo horizonte mediante adaptación online del andamiaje operativo.

Eso ya es mucho. Pero no es magia.

23. Qué sí demuestra o sugiere

Lo que sí sugiere es muy relevante:

  • Primero, que el harness puede ser tan importante como el modelo en tareas largas.
  • Segundo, que la mejora online sin reinicio es posible en entornos complejos.
  • Tercero, que la memoria, los subagentes y las skills no deben verse como añadidos decorativos, sino como partes centrales de la inteligencia operativa del sistema.
  • Cuarto, que el futuro de los agentes probablemente no será un único modelo monolítico, sino sistemas compuestos con estructuras internas adaptables.
  • Quinto, que la separación entre inferencia, memoria, herramientas y aprendizaje se está volviendo más borrosa.
  • Y sexto, que evaluar agentes exigirá nuevos benchmarks. Ya no bastará con medir si responden bien a preguntas aisladas.

Habrá que medir si sostienen objetivos, evitan bucles, aprenden de fallos, usan memoria correctamente y mejoran sin romperse.

24. Una forma sencilla de entender su importancia

Podemos comparar distintos niveles de madurez agentiva:

NivelDescripción
ChatbotContesta preguntas
RAGContesta usando documentos
Agente con herramientasEjecuta acciones externas
Agente con memoriaRecuerda contexto relevante
Agente con skillsReutiliza procedimientos
Agente multiagenteDelega subtareas especializadas
Continual HarnessMejora prompt, memoria, skills y subagentes durante la tarea
Co-learning modelo-harnessAdemás usa trayectorias para actualizar el modelo

Continual Harness se sitúa en los dos últimos escalones. Su relevancia está en que convierte al agente en un sistema que no solo actúa, sino que se reorganiza.

25. Aplicación práctica: ejemplo en una administración

Imaginemos un agente para apoyar a técnicos en expedientes de empleo.

Agente básico

Responde preguntas sobre normativa.

Agente con RAG

Busca en documentos internos y responde con referencias.

Agente con herramientas

Consulta expedientes, plazos, formularios y estado de solicitudes.

Agente con memoria

Recuerda casos similares, incidencias previas y excepciones frecuentes.

Agente con skills

Tiene rutinas para comprobar requisitos, detectar documentos ausentes o generar borradores de comunicación.

Agente tipo Continual Harness

Detecta que cierto tipo de expediente se atasca siempre por la misma causa. Crea una memoria sobre el patrón, propone una skill de comprobación previa, ajusta su checklist, delega la revisión normativa en un subagente y genera una propuesta de mejora del procedimiento para que un humano la valide.

Ese último paso es el salto relevante: el agente no se limita a seguir el proceso; ayuda a mejorar el proceso.

26. Cómo debería desplegarse con prudencia

Una organización no debería empezar permitiendo que un agente modifique libremente su harness en producción.

Una ruta prudente sería:

  1. Harness fijo y auditable.
    Primero se diseña un agente con herramientas y memoria controlada.
  2. Refinamiento como sugerencia.
    El agente detecta fallos y propone cambios, pero no los aplica automáticamente.
  3. Sandbox de automejora.
    Las nuevas skills y prompts se prueban en un entorno seguro.
  4. Automejora limitada.
    Solo se permite actualización automática en componentes de bajo riesgo.
  5. Gobernanza completa.
    Versionado, métricas, revisión, rollback, auditoría, trazabilidad y validación humana.

Esto permitiría aprovechar la potencia de la arquitectura sin asumir riesgos innecesarios.

27. Indicadores para evaluar un sistema así

Un sistema inspirado en Continual Harness no debería evaluarse solo por tasa de acierto. Habría que medir:

  • tasa de finalización de tareas;
  • coste por tarea;
  • número de pasos;
  • número de bucles repetitivos;
  • calidad de las memorias;
  • utilidad real de las skills;
  • frecuencia de intervención humana;
  • errores evitados;
  • errores introducidos por automejora;
  • cambios revertidos;
  • estabilidad del comportamiento;
  • cumplimiento normativo;
  • trazabilidad;
  • satisfacción de usuarios;
  • ahorro de tiempo;
  • impacto en calidad del servicio.

La métrica clave no es simplemente productividad. Es productividad bajo control.

28. Conclusión

Considerando todo lo visto en este artículo, Continual Harness es importante porque desplaza el foco desde “qué modelo es más inteligente” hacia “qué sistema completo es capaz de actuar, aprender y mantenerse coherente durante tareas largas”.

Su aportación principal es la idea de un harness autoadaptativo, capaz de refinar prompt, subagentes, habilidades y memoria durante la ejecución, sin reiniciar el episodio. Eso lo hace especialmente relevante para agentes de largo horizonte, donde los problemas reales son la memoria, la persistencia, la recuperación ante errores, la coordinación de herramientas y la capacidad de evitar bucles.

Mi valoración final podría ser esta:

Continual Harness no es el “modelo definitivo”, sino una arquitectura que apunta hacia la próxima generación de agentes: sistemas compuestos, con memoria, herramientas, subagentes, habilidades reutilizables y capacidad de mejorar su propio modo de operar.

La promesa es enorme para empresas, programación, automatización, robótica y Administración pública. Pero también lo son los riesgos. Cuanto más capaz sea un agente de modificar su propia estructura operativa, más importante será gobernar esa modificación.

La idea clave para llevarlo al mundo real debería ser:

Automejora sí, pero con trazabilidad, límites, evaluación, supervisión humana y capacidad de rollback.

Ahí está probablemente una de las grandes líneas de evolución de la IA aplicada: no solo modelos más grandes, sino agentes que aprenden a trabajar mejor sin dejar de estar controlados.

Scroll al inicio