BlogAgentes de IA · Estrategia de procesos
Agentes de IA · Estrategia de procesos

Vuestro agente de IA no automatiza un flujo que jamás ha visto

El conocimiento del flujo siempre se concentró en tres personas senior. En 2026 ese cuello de botella pasa a ser un problema de automatización: los agentes de IA no leen cabezas, leen trazas.

Portrait of Elliot Bensabat
Escrito por
Elliot Bensabat
Co-founder, Capture
Publicado
Tarjeta de guía grabada a la izquierda conectada por una flecha horizontal a un icono abstracto de agente en cubo-circuito a la derecha, ilustración editorial brutalista que sugiere la documentación alimentando la automatización por agente
Los números
Tickets IT Tier-1
−35%
Tras 20 guías grabadas
Tiempo hasta la primera PR
1 semana
3 semanas
Una vez grabado el flujo
Puntos de decisión por flujo
3 a 7
Lo que un agente debe aprender
Flujos en saber tácito
~80%
Baseline mid-market
En 60 segundos

Lo esencial.

Cada flujo que ejecuta vuestro equipo hoy depende de una persona concreta. Pilar conoce la conciliación contable. Javier conoce el despliegue. Sergio conoce el ciclo de renovación. La persona senior que sabe cómo se hace una cosa siempre fue el cuello de botella para nuevos fichajes y clientes. En 2026, ese cuello de botella pasa a ser el cuello de botella de la IA. Los agentes de IA no leen cabezas. Leen trazas grabadas de cómo se ejecutó un flujo un martes concreto. Las empresas que grabaron sus flujos en 2025 son las que despliegan agentes en 2026. El resto sigue en entrevistas, intentando extraer el flujo de la persona senior.

01 · Sección

El nuevo cuello de botella: los flujos se concentran en tres seniors

El conocimiento de los flujos se concentra en tres personas senior. Una scale-up española de 220 personas operaba su helpdesk de IT con tres ingenieros que respondían a las mismas veinte preguntas cada lunes. Las preguntas vivían en la cabeza de los seniors, la wiki tenía capturas de 2022, y el equipo seguía contratando ingenieros de soporte porque era la única forma de escalar. Entonces el equipo grabó veinte guías en dos días y el volumen de tickets Tier-1 cayó un 35% en ocho semanas. El cuello de botella se movió de la disponibilidad humana a la cobertura de la biblioteca.

Lo que viene después es la capa agente. Una vez grabado un flujo, lo puede reproducir una persona, lo puede resumir un LLM, lo puede ejecutar un agente. El mismo artefacto sirve a tres públicos. La investigación del Nielsen Norman Group sobre por qué los usuarios web escanean en lugar de leer explica por qué los humanos necesitan guías cortas y estructuradas. Esa misma propiedad (estructurada, escaneable, trazable) es lo que un agente de IA necesita para aprender el flujo.

El problema en 2026: el 80% de los flujos de un equipo mid-market típico nunca se han grabado. Se han ejecutado miles de veces por Pilar, Javier y Sergio. Se han descrito en páginas de Notion en las que nadie confía. Se han narrado en Zooms de incorporación que nadie volvió a abrir. Ninguno de esos formatos produce una traza que un agente pueda usar.

Un staff engineer en una plataforma B2B de observabilidad encontró exactamente este patrón cuando sustituyó un README de 2.400 líneas por doce guías: el README describía el setup, las guías lo trazaban. Los nuevos ingenieros entregaban su primera PR en una semana en vez de tres. Un agente que automatice el setup del entorno de desarrollo necesitará esas mismas trazas, no el README.

02 · Sección

Lo que un agente de IA necesita realmente para automatizar un flujo

Un agente de IA que automatiza un flujo necesita cinco entradas. Una descripción no se las da. Una guía grabada, sí.

Entrada
Secuencia de pasos
Qué es
La lista ordenada de clics y acciones de teclado
Dónde la aporta la guía grabada
La step list de Capture, en orden
Entrada
Estado de pantalla esperado
Qué es
Cómo debe verse la pantalla antes de cada paso
Dónde la aporta la guía grabada
La captura con timestamp de cada paso
Entrada
Puntos de decisión
Qué es
Ramas donde se requiere juicio del operador
Dónde la aporta la guía grabada
La narración en el clic ("si el cliente está en la UE, click aquí")
Entrada
Gestión de excepciones
Qué es
Qué hacer cuando un paso falla
Dónde la aporta la guía grabada
Guías de troubleshooting enlazadas por modo de fallo
Entrada
Razonamiento
Qué es
Por qué este clic y no la alternativa
Dónde la aporta la guía grabada
Voz en off convertida en texto de paso

Una SOP de Notion ofrece la secuencia y a veces el razonamiento. Se deja fuera el estado de pantalla, los puntos de decisión y la gestión de excepciones. Un vídeo de Loom ofrece el estado de pantalla y el razonamiento, pero el agente tiene que aplicar OCR a cada frame y transcribir el audio para extraerlos. El enfoque Loom funciona, pero el coste de extracción es lo bastante alto para que la mayoría de equipos no se moleste.

Una guía grabada escrita para lectores humanos ya contiene las cinco entradas en forma estructurada. La documentación de Computer Use de Claude en Anthropic y el Model Context Protocol consumen ambos step lists estructuradas con evidencia de pantalla; el formato se convierte hacia uno u otro con una transformación mínima. Una guía grabada es, en la práctica, el dato de entrenamiento agente más barato que una empresa puede producir. La parte dura es la grabación. La integración con el agente es la parte fácil.

03 · Sección

Por qué las guías grabadas baten a las SOPs y a los vídeos como entrenamiento

El formato que minimiza el coste de extracción del agente es el que se automatiza más rápido. Tres formatos, tres costes de extracción.

SOP de Notion o Confluence (coste de extracción: alto). El agente recibe prosa. Tiene que parsear la intención, inferir la secuencia, adivinar los puntos de decisión, postular el estado de pantalla. La mayoría de agentes que intentan automatizar desde prosa alucinan los pasos no descritos. Los equipos que lo intentaron en 2025 acabaron reescribiendo la SOP como prompt estructurado, lo cual es el mismo trabajo que una grabación única.

Loom o screen recording (coste de extracción: medio-alto). El agente tiene que correr OCR sobre cada frame, transcribir el audio y alinear los dos flujos. Es técnicamente posible. La investigación del Nielsen Norman Group sobre legibilidad y comprensión subraya por qué los humanos no consumen Loom como documentación; el mismo problema de densidad convierte el vídeo en una entrada ineficiente para los agentes. El coste compute de un agente sobre vídeo tampoco es despreciable cuando escaláis a una biblioteca de 50 guías.

Guía grabada (coste de extracción: bajo). El agente recibe JSON estructurado: pasos ordenados, capturas con timestamp, razonamiento narrado por paso, manejadores de excepción enlazados. Esto se acerca a lo que la investigación de Anthropic sobre flujos legibles por agentes describe como formato de entrada ideal. El agente recorre la guía de forma determinista, y se reentrena sobre un solo paso cuando cambia la UI.

La asimetría de coste se compone a nivel de biblioteca. Veinte SOP de Notion, son veinte proyectos de conversión a agente. Veinte guías grabadas, son una integración. Los equipos que construyen la biblioteca sobre el formato correcto obtienen la capa agente prácticamente gratis. Si dudáis entre formatos, una mirada lateral a la alternativa a Scribe muestra el mismo patrón sobre la elección de herramienta.

04 · Sección

Cómo grabar para humanos y para agentes a la vez

El flujo de grabación que produce una guía utilizable para un lector humano es el mismo que produce una traza utilizable para un agente. Tres añadidos lo afilan para los dos públicos.

1. Narrar el porqué en cada clic. "Hago click en Guardar" es un paso. "Hago click en Guardar antes de añadir la integración para que el flujo no quede huérfano si la conexión hace timeout" es un ejemplo de entrenamiento. El nuevo fichaje que lee la guía y el agente que aprende el flujo necesitan la segunda versión. Las tres primeras descripciones de paso son lo que la investigación del Nielsen Norman Group sobre el patrón de lectura en F muestra como criterio que los lectores usan para decidir si siguen leyendo; lo mismo vale para un agente que decide si seguir la guía tal cual o saltar a otra.

2. Ser explícitos en los puntos de decisión. "Si el cliente está en el plan UE, click en Configurar RGPD. Si no, salta al paso 7." Los puntos de decisión son donde la mayoría de agentes fallan cuando automatizan desde prosa. Una guía grabada que nombra la rama y el criterio se convierte directamente en flujo de control para el agente. La mayoría de flujos tienen entre tres y siete puntos de decisión; encontrarlos volviendo a ver un Loom sale caro, encontrarlos en una guía estructurada es una búsqueda.

3. Documentar los modos de fallo como hermanos. Cada fallo conocido tiene su propia guía corta de troubleshooting, enlazada desde la principal. Un staff engineer de una plataforma B2B de observabilidad hizo exactamente esto: cada modo de fallo conocido se convirtió en una guía corta, enlazada desde una sola entrada del wiki de engineering. Los nuevos ingenieros encontraban su modo de fallo en segundos. El agente hace lo mismo: cuando su camino primario falla, recorre la guía de excepción enlazada.

Estos tres añadidos cuestan más o menos dos minutos por grabación. El retorno sobre el tiempo de integración con el agente se mide en días. La extensión de Chrome de Capture está construida en torno a este flujo de grabación, y la misma biblioteca que sirve a vuestros humanos servirá a vuestros agentes en 2026.

05 · Sección

La biblioteca compone: de la documentación a la infraestructura agente

La biblioteca IT de 20 guías que tiró los tickets Tier-1 un 35% no es solo documentación. Es una hoja de ruta de automatización. Lo mismo vale para el patrón de onboarding de cliente en doce minutos y para la biblioteca SOP SOC 2: una vez grabado el flujo, el siguiente movimiento evidente es automatizar los casos más simples.

Tres patrones se despliegan a nivel de biblioteca.

El agente se queda con los casos simples. La guía de reset de MFA pasa a ser un agente de reset de MFA que cubre el 80% de los casos sin supervisión. La guía de configuración de VPN pasa a ser un agente de setup de VPN para nuevos fichajes. Los primeros despliegues de agentes cubren los flujos donde los puntos de decisión son simples y los modos de fallo están bien documentados. Los casos duros se quedan con los humanos y se convierten en el trabajo de documentación del año siguiente.

La biblioteca crece en incrementos compatibles con agentes. Una vez que el equipo entiende qué le hace falta a una guía para ser legible por un agente (puntos de decisión nombrados, modos de fallo enlazados, narración explícita), las veinte guías siguientes nacen ya en ese formato. La biblioteca se compone en utilidad, no solo en cuenta.

Los auditores vienen detrás. Las SOP listas para auditoría exigen ya las mismas propiedades que un agente: ejecución con timestamp, evidencia en los puntos de decisión, gestión de excepciones. Los Trust Services Criteria de la AICPA piden evidencia de ejecución, no descripción de política. El método "grabar primero" satisface al auditor y al agente. Dos lectores, un artefacto. En España, los flujos documentados para encajar con la AEPD y el RGPD son exactamente el tipo de artefacto que un agente puede reproducir mañana sin reescritura.

Los equipos que documentaron en 2024-2025 son los que despliegan agentes en 2026. Los que pospusieron la documentación parten de cero: tienen que grabar los flujos Y construir los agentes, en secuencia. La asimetría se compone. La documentación deja de ser un side project. Es el prerrequisito para la ola de automatización 2026-2027. El expediente completo sobre seis equipos está en el caso de las guías paso a paso.

Una guía grabada es el dato de entrenamiento más barato que vuestra empresa producirá jamás para un agente. La parte dura es la grabación. La integración con el agente es la parte fácil.
Head of automation, fintech B2B
FAQ

Preguntas frecuentes.

¿Qué plataformas de agentes de IA pueden consumir hoy guías de flujo grabadas?

Claude Computer Use en Anthropic y cualquier agente construido contra el Model Context Protocol consumen directamente step lists estructuradas con evidencia de pantalla. Los Assistants y la Agents API de OpenAI consumen JSON similar. Los frameworks de automatización de navegador (Playwright más LLM) consumen step lists en markdown. El patrón común a todos: estructurado, ordenado, con timestamp, con puntos de decisión explícitos. Esa es la forma que ya tiene una guía grabada.

¿Hay que esperar a que los agentes de IA maduren antes de grabar los flujos?

No. La grabación devuelve dinero hoy (lectores humanos, menos tickets, onboarding más rápido) y otra vez después (dato de entrenamiento agente). Los equipos que empezaron a grabar en 2024-2025 son los que tienen la integración de agentes más profunda en 2026. No existe versión de esta estrategia donde esperar ayude.

¿Y los flujos que solo conoce Pilar?

Empezar por los más explicados. Mismo patrón que para lectores humanos: tomad el flujo que Pilar explica cinco veces por semana, grabadlo una vez con ella narrando, y observad cómo deja de explicarse. La disciplina de grabar fuerza el saber tácito a una forma que humanos, agentes y auditores pueden consumir. La guía de documentación del onboarding de cliente recorre el método.

¿Puede el agente gestionar un flujo cuando la guía está incompleta?

A veces. La mayoría de despliegues de agentes en producción en 2026 escalan a humanos cuando hay estados no reconocidos o puntos de decisión no mapeados. La completitud de la guía determina el ratio de escalado. Nombrar los puntos de decisión de forma explícita y enlazar los modos de fallo divide los ratios de escalado por aproximadamente un orden de magnitud en los despliegues observados. El coste de grabación para añadir puntos de decisión explícitos son dos minutos por guía; el coste de escalado evitado se mide en horas de operador por semana.

¿No es esto solo un ángulo de hype IA para vender herramientas de documentación?

La guía grabada devuelve dinero con o sin agente. El ángulo agente es upside, no la propuesta de valor central. Un equipo CS de cuatro personas que usa guías para saltarse la videollamada de Zoom, un equipo de IT que recorta los tickets Tier-1, una agencia que convierte el traspaso en línea facturable: todas esas victorias existen tanto si la empresa despliega un agente como si no. La capa agente es la década siguiente componiendo encima.

Siguiente paso

Empezad a grabar antes de que vuestros agentes lo necesiten. Las dos cosas devuelven.

Capture transforma un flujo en una guía estructurada en doce minutos. Extensión de Chrome gratuita, sin registro. La misma biblioteca que ayuda a vuestros humanos a saltarse la videollamada servirá a vuestros agentes cuando lleguen en 2026.

Pruébalo

Graba un workflow.

Extensión de Chrome gratuita. Sin registro.