BlogAgentes de IA · Estrategia de procesos
Agentes de IA · Estrategia de procesos

Su agente de IA no puede automatizar un flujo que nunca vio

El conocimiento de los flujos siempre estuvo concentrado en tres seniors. En 2026 ese cuello de botella se vuelve un problema de automatización: los agentes de IA no leen cabezas, leen trazas.

Portrait of Elliot Bensabat
Escrito por
Elliot Bensabat
Co-founder, Capture
Publicado
Precios verificados
mayo de 2026
Tarjeta de guía grabada a la izquierda conectada por una flecha horizontal a un ícono abstracto de agente en cubo-circuito a la derecha, ilustración editorial brutalista que sugiere documentación alimentando la automatización por agente
Los números
Tickets IT Tier-1
−35%
Tras 20 guías grabadas
Tiempo a primer PR
1 semana
3 semanas
Una vez grabado el flujo
Puntos de decisión por flujo
3 a 7
Lo que el agente debe aprender
Flujos no documentados
~80%
Línea base mid-market
En 60 segundos

Lo esencial.

Cada flujo que su equipo ejecuta hoy vive en alguna cabeza. María conoce la conciliación contable. Diego conoce los despliegues. Mauricio conoce el ciclo de renovaciones. La persona senior que sabe cómo se hace una cosa siempre fue el cuello de botella para nuevas contrataciones y para los clientes. En 2026 ese cuello de botella se vuelve el cuello de botella de la IA. Los agentes de IA no leen cabezas. Leen trazas grabadas de cómo el flujo se ejecutó un martes específico. Las empresas que grabaron sus flujos en 2025 son las que despliegan agentes en 2026. Las que no lo hicieron siguen en entrevistas tratando de extraerle el flujo a la persona senior.

01 · Sección

El nuevo cuello de botella: los flujos dependen de tres seniors

El conocimiento de los flujos sigue concentrado en tres seniors. Una scale-up de 220 personas operaba su mesa de ayuda con tres ingenieros que respondían las mismas veinte preguntas cada lunes. Las preguntas vivían en la cabeza de los seniors, el wiki tenía capturas de 2022, y el equipo seguía contratando support engineers porque era la única forma de escalar. Después el equipo grabó veinte guías en dos días y el volumen de tickets Tier-1 cayó 35% en ocho semanas. El cuello de botella pasó de la disponibilidad humana a la cobertura de la biblioteca.

Lo que viene después es la capa de agente. Una vez grabado el flujo, puede ser repetido por una persona, resumido por un LLM, o ejecutado por un agente. El mismo artefacto sirve a tres audiencias. La investigación de NNGroup sobre por qué los usuarios web escanean en lugar de leer explica por qué los humanos necesitan guías cortas y estructuradas. La misma propiedad (estructurada, escaneable, trazable) es lo que un agente de IA necesita para aprender el flujo.

El problema en 2026 es que el 80% de los flujos en un equipo mid-market típico nunca se grabaron. Se ejecutaron miles de veces por María, Diego y Mauricio. Se describieron en páginas de Notion en las que nadie confía. Se narraron en Zooms de inducción que nadie volvió a ver. Ninguno de esos formatos produce una traza que un agente pueda usar.

Una staff engineer de una fintech B2B encontró exactamente este patrón cuando reemplazó un README de 2,400 líneas por doce guías: el README describía el setup, las guías lo trazaban. Los nuevos ingenieros entregaban su primer PR en una semana en vez de tres. Un agente que automatice el setup del entorno de desarrollo va a necesitar las mismas trazas, no el README.

02 · Sección

Lo que un agente de IA realmente necesita para automatizar un flujo

Un agente de IA que automatiza un flujo necesita cinco entradas. Una descripción no las provee. Una guía grabada sí.

Entrada
Secuencia de pasos
Qué es
La lista ordenada de clics y acciones de teclado
Dónde la guía grabada la provee
La lista de pasos de Capture, en orden
Entrada
Estado de pantalla esperado
Qué es
Cómo debe verse la pantalla antes de cada paso
Dónde la guía grabada la provee
La captura con timestamp de cada paso
Entrada
Puntos de decisión
Qué es
Ramas donde se requiere juicio del operador
Dónde la guía grabada la provee
Narración del operador en el clic ("si el cliente está en zona UE, hacer clic acá")
Entrada
Manejo de excepciones
Qué es
Qué hacer cuando un paso falla
Dónde la guía grabada la provee
Guías de troubleshooting ligadas por modo de falla
Entrada
Razonamiento
Qué es
Por qué este clic y no la alternativa
Dónde la guía grabada la provee
Voz en off convertida en texto del paso

Una SOP de Notion entrega la secuencia y a veces el razonamiento. Falla en el estado de pantalla, los puntos de decisión y el manejo de excepciones. Un video de Loom entrega el estado de pantalla y el razonamiento, pero el agente tiene que correr OCR sobre cada cuadro y transcribir el audio para extraerlos. La vía Loom funciona, pero el costo de extracción es lo bastante alto como para que la mayoría de los equipos no se moleste.

Una guía grabada escrita para lectores humanos ya tiene las cinco entradas en forma estructurada. La documentación de Claude Computer Use de Anthropic y el Model Context Protocol consumen ambos step lists estructuradas con evidencia de pantalla; el formato se convierte a cualquiera de los dos con transformación mínima. Una guía grabada es, en la práctica, el dato de entrenamiento más barato que una empresa puede producir para agentes. Lo difícil es la grabación. La integración con el agente es la parte fácil.

03 · Sección

Por qué las guías grabadas le ganan a SOPs y videos para entrenar agentes

El formato que minimiza el costo de extracción del agente es el formato que se automatiza más rápido. Tres formatos, tres costos de extracción.

SOP de Notion o Confluence (costo de extracción: alto). El agente recibe prosa. Tiene que parsear la intención, inferir la secuencia, adivinar los puntos de decisión, suponer el estado de pantalla. La mayoría de los agentes que intentan automatizar desde prosa alucinan los pasos no descritos. Los equipos que probaron esto en 2025 terminaron reescribiendo la SOP como prompt estructurado, que es el mismo trabajo que grabar la guía una sola vez.

Loom o screen recording (costo de extracción: medio-alto). El agente debe correr OCR en cada cuadro, transcribir el audio, y alinear los dos flujos. Es técnicamente posible. La investigación de NNGroup sobre legibilidad y comprensión subraya por qué los humanos no consumen Loom como documentación; el mismo problema de densidad hace del video una entrada ineficiente para los agentes. El costo de cómputo de un agente sobre video tampoco es despreciable cuando se escala a una biblioteca de 50 guías.

Guía grabada (costo de extracción: bajo). El agente recibe JSON estructurado: pasos ordenados, capturas con timestamp, razonamiento narrado por paso, manejadores de excepciones ligados. Esto se acerca a lo que la investigación de Anthropic sobre flujos legibles para agentes describe como el formato de entrada ideal. El agente corre contra la guía de manera determinista, reentrenándose en un solo paso cuando la UI cambia.

La asimetría de costo se compone a nivel biblioteca. Veinte SOPs de Notion son veinte proyectos de conversión a agente. Veinte guías grabadas son una sola integración. Los equipos que construyen la biblioteca con el formato correcto obtienen la capa de agente prácticamente gratis.

04 · Sección

Cómo grabar para humanos y agentes al mismo tiempo

El flujo de grabación que produce una guía usable para un lector humano es el mismo que produce una traza usable para un agente. Tres adiciones lo afilan para ambas audiencias.

1. Narrar el porqué en cada clic. "Hago clic en Guardar" es un paso. "Hago clic en Guardar antes de añadir la integración para que el flujo no quede huérfano si la conexión hace timeout" es un ejemplo de entrenamiento. Tanto el nuevo que lee la guía como el agente que aprende el flujo necesitan la segunda. Las primeras tres descripciones de paso son lo que la investigación de NNGroup sobre el patrón de lectura en F muestra que los lectores realmente usan para decidir si siguen leyendo; lo mismo aplica a un agente que decide si seguir la guía tal cual o cambiarse a otra.

2. Ser explícito en los puntos de decisión. "Si el cliente está en plan UE, hacer clic en Configurar GDPR. De lo contrario, saltar al paso 7." Los puntos de decisión son donde la mayoría de los agentes fallan cuando automatizan desde prosa. Una guía grabada que nombra la rama y el criterio se convierte directamente en flujo de control del agente. La mayoría de los flujos tienen entre tres y siete puntos de decisión; encontrarlos volviendo a ver un Loom sale caro, encontrarlos en una guía estructurada es una sola búsqueda.

3. Documentar los modos de falla como hermanos. Cada falla conocida tiene su propia guía corta de troubleshooting, ligada desde la principal. Un staff engineer de una fintech B2B hizo exactamente eso: cada modo de falla conocido se volvió una guía corta, ligada desde una sola entrada del wiki de ingeniería. Los nuevos encontraban su modo de falla en segundos. Un agente hace lo mismo: cuando su ruta primaria falla, recorre la guía de excepción ligada.

Estas tres adiciones cuestan aproximadamente dos minutos por grabación. El retorno en tiempo de integración con el agente se mide en días. La extensión Chrome de Capture está construida alrededor de este flujo de grabación, y la misma biblioteca que sirve a sus humanos servirá a sus agentes en 2026.

05 · Sección

La biblioteca se compone: de documentación a infraestructura de agentes

La biblioteca IT de 20 guías que tiró los tickets Tier-1 35% no es solo documentación. Es un roadmap de automatización. Lo mismo aplica al patrón de onboarding de cliente en doce minutos y a la biblioteca de SOPs SOC 2: una vez grabado el flujo, el siguiente paso obvio es automatizar los casos más simples.

Tres patrones se desenvuelven a nivel biblioteca.

El agente toma los casos simples. La guía de reseteo MFA se vuelve un agente de reseteo MFA que maneja 80% de los casos sin supervisión. La guía de configuración de VPN se vuelve un agente de setup VPN para nuevas contrataciones. Los primeros despliegues de agentes cubren los flujos donde los puntos de decisión son simples y los modos de falla están bien documentados. Los casos duros se quedan con los humanos y se vuelven el trabajo de documentación del año siguiente.

La biblioteca crece en incrementos amigables para agentes. Una vez que el equipo entiende qué necesita una guía para ser legible por agentes (puntos de decisión nombrados, modos de falla ligados, narración explícita), las siguientes veinte guías llegan en ese formato desde el inicio. La biblioteca acumula utilidad, no solo cantidad.

Los auditores llegan después. Las SOPs listas para auditoría ya exigen las mismas propiedades que un agente necesita: ejecución con timestamp, evidencia en los puntos de decisión, manejo de excepciones. Los Trust Services Criteria de la AICPA piden evidencia de ejecución, no descripción de política. El método de "grabar primero" satisface al auditor y al agente. Dos lectores, un solo artefacto. En el lado mexicano, los flujos documentados para cumplimiento con la LFPDPPP frente al INAI o las grabaciones de procesos de KYC en Konfio, Bitso o Belvo son exactamente el tipo de artefacto que un agente puede repetir mañana.

Los equipos que documentaron en 2024 a 2025 son los que despliegan agentes en 2026. Los equipos que pospusieron la documentación arrancan desde cero: tienen que grabar los flujos Y construir los agentes, en secuencia. La asimetría se compone. La documentación ya no es un side project. Es el prerrequisito para la ola de automatización 2026 a 2027. El expediente completo sobre seis equipos está en el caso de las guías paso a paso.

Una guía grabada son los datos de entrenamiento más baratos que su empresa producirá jamás para un agente. Lo difícil es la grabación. La integración con el agente es la parte fácil.
Head of automation, fintech B2B
FAQ

Preguntas frecuentes.

¿Qué plataformas de agentes de IA pueden consumir hoy guías de flujo grabadas?

Claude Computer Use de Anthropic y cualquier agente construido contra el Model Context Protocol consumen directamente step lists estructuradas con evidencia de pantalla. Los Assistants y la Agents API de OpenAI consumen JSON similar. Los frameworks de automatización de navegador (Playwright más LLM) consumen step lists en markdown. El patrón en común: estructurado, ordenado, con timestamp, con puntos de decisión explícitos. Esa es la forma que una guía grabada ya tiene.

¿Hay que esperar a que los agentes de IA maduren antes de grabar los flujos?

No. La grabación paga hoy (lectores humanos, menos tickets, onboarding más rápido) y otra vez después (datos de entrenamiento para agentes). Los equipos que empezaron a grabar en 2024 a 2025 son los que tienen la integración con agentes más profunda en 2026. No existe versión de la estrategia donde esperar ayude.

¿Y los flujos que solo María conoce?

Empezar por los más explicados. Mismo patrón que para lectores humanos: tomar el flujo que María explica cinco veces a la semana, grabarlo una vez con ella narrando, y verlo dejar de ser explicado. La disciplina de grabar fuerza el saber tácito a una forma que humanos, agentes y auditores pueden consumir. La guía para documentar el onboarding de clientes recorre el método de grabación.

¿El agente puede manejar un flujo cuando la guía está incompleta?

A veces. La mayoría de los despliegues de agentes en producción en 2026 escalan a humanos cuando hay estados no reconocidos o puntos de decisión no mapeados. La completitud de la guía determina la tasa de escalamiento. Nombrar puntos de decisión explícitamente y ligar modos de falla baja las tasas de escalamiento aproximadamente un orden de magnitud en los despliegues observados. El costo de grabar para añadir puntos de decisión explícitos son dos minutos por guía; el costo de escalamiento ahorrado se mide en horas-operador por semana.

¿No es esto solo un ángulo de hype IA para herramientas de documentación?

La guía grabada paga con o sin agentes. El ángulo de agente es upside, no la propuesta de valor central. Un equipo de CS de cuatro personas usando guías para saltarse llamadas de Zoom, un equipo de IT recortando tickets Tier-1, una agencia volviendo el handover una línea facturable: todos esos resultados existen así la empresa nunca despliegue un agente. La capa de agente es la siguiente década componiéndose encima.

Siguiente paso

Empiece a grabar antes de que sus agentes lo necesiten. Ambos pagan.

Capture convierte un flujo en una guía estructurada en doce minutos. Extensión Chrome gratis, sin registro. La misma biblioteca que ayuda a sus humanos a saltarse el Zoom servirá a sus agentes cuando lleguen en 2026.

Pruébalo

Graba un workflow.

Extensión de Chrome gratuita. Sin registro.