Tabla de Contenidos
Toggle1. Introducción
Este artículo continua con el anterior sobre IA 2.0. Hasta ahora, la IA 1.0 respondía preguntas. Pero ahora los agentes con “computer use” dan un paso más: miran la pantalla, mueven el ratón, escriben y completan tareas en webs y aplicaciones, igual que haría una persona. Sí, es como si la IA integrase ya la RPA (automatización de procesos). Si una empresa no tiene API ni integraciones, el agente igualmente puede entrar en el portal, rellenar formularios, descargar archivos y seguir instrucciones.
2. ¿Cuales son las ideas clave?
En los agentes «computer use» encontramos dos ideas clave:
Agente “agentic”: no solo contesta, también planifica, actúa y se corrige cuando algo falla.
“Computer use”: la capacidad de ver la interfaz (capturas/DOM) y operarla (clic, tecleo, subir/descargar archivos) en un entorno controlado.
3. ¿Por qué ahora?
Hay tres avances que lo han hecho posible:
IA que ve: modelos que entienden botones, menús y formularios en una pantalla.
IA que razona: pueden dividir un objetivo en pasos y rehacerlos si algo sale mal.
Herramientas de orquestación: marcos que conectan esa inteligencia con el control del ordenador.
En la práctica, ya hay demos públicas que muestran agentes completando tareas en un navegador aislado y seguro, y suites empresariales que integran esta capacidad en sus asistentes.
4. ¿Cómo funciona?
El funcionamiento de estos nuevos agentes sigue básicamente este proceso:
Le dices el objetivo: “Descarga la factura del portal X y súbela al ERP”.
El agente observa la pantalla y reconoce qué puede pulsar o escribir.
Planifica los pasos (entrar, buscar, descargar, subir…).
Actúa: clics, escritura, subir/descargar archivos.
Comprueba si lo logró; si no, se corrige o te pide ayuda en un punto sensible (por ejemplo, un código MFA).
A veces opera solo en navegador seguro (más control y menos riesgo). Otras veces puede actuar también en el escritorio (más potencia, más cuidado).
5. ¿En qué mejora a la RPA “de toda la vida”?
La RPA clásica brilla en procesos estables y repetitivos. Pero si la web cambia el diseño, los robots suelen romperse. Los agentes con “computer use” se apoyan en visión y contexto: toleran mejor cambios de etiquetas, posiciones o menús y deciden el siguiente paso sobre la marcha.
Resultado: cubren el “borde” donde no hay API o todo cambia demasiado.
6. ¿Y cuales son los casos de uso que ya encajan?
Encontramos muchos casos de uso e los que estos nuevos agentes desarrollan su potencial:
Trámites en portales sin integración: altas de pedidos, consulta de estados, descargas de documentos.
Automatización de conocimiento: buscar, leer, resumir y completar formularios en varios sitios.
Entornos corporativos: cuando no hay conector oficial, el agente puede “operar” una app igual que un empleado.
7. ¿Cómo podemos medir si de verdad sirve?
Entre los Kpi para medir su eficacia, encontramos:
Tasa de éxito por objetivo (¿consiguió lo que le pedí?).
Pasos y tiempo por tarea (¿es más rápido que una persona o que un robot clásico?).
Intervenciones humanas (¿cuántas veces te pidió ayuda y por qué?).
Robustez ante cambios de UI (¿se rompe si cambian el botón?).
Incidentes bloqueados por seguridad (¿intentó algo fuera de política?).
8. ¿Cómo es la seguridad y confianza en estos agentes?
La seguridad y confianza viene dada por:
Aislamiento: que trabaje en un navegador/VM con lista de sitios permitidos.
Menor privilegio: solo lo necesario; nunca le “teclees” contraseñas (usa cofres de secretos).
Trazabilidad: registros de pantallas y acciones para auditar.
Humano en el bucle para pagos, datos sensibles o firmas.
Pruebas de estrés periódicas (cambios de UI, captchas, MFA).
9. ¿Cual es el ecosistema en el que se desarollan?
Plataformas de IA que muestran agentes completando tareas en un navegador seguro de principio a fin.
Suites empresariales que añaden “computer use” a sus copilotos para operar apps y webs corporativas.
Frameworks de orquestación de agentes (multiagente, planificación, revisión) que facilitan llevar esto a producción.
Proveedores de RPA que mejoran sus selectores con semántica y visión para acercarse a estos patrones.
10. ¿Que falta por resolver?
Entre las cuestiones aún por resolver, encontramos:
Generalizar entre UIs distintas sigue siendo difícil.
Coste y latencia: ver + razonar + actuar es más caro que un flujo fijo.
Benchmarks: no hay una “liga oficial”; hay que probar por cada caso.
Fricciones reales: MFA, captchas y rediseños bruscos de webs exigen planes de respaldo.
11. Y lo que viene
El camino ya está trazado. Falta por recorrerlo. Y en ese camino encontramos:
Más agencia “nativa” del modelo (menos código pegamento).
Convergencia de frameworks para despliegues empresariales.
Un modelo “híbrido” por defecto: RPA para lo estable y de alto volumen; agentes con computer use para el borde cambiante, con guardarraíles y métricas claras.
Los agentes con “computer use” no reemplazan todo lo que ya funciona: rellenan el hueco donde no hay API o la UI cambia demasiado. Si se implantan con seguridad, métricas y prudencia, pueden ahorrar horas en trámites y tareas de pantalla que hoy nos consumen tiempo y paciencia.
