BlogKI-Agenten · Prozessstrategie
KI-Agenten · Prozessstrategie

Ihr KI-Agent kann keinen Workflow automatisieren, den er nie gesehen hat

Workflow-Wissen saß seit jeher in den Köpfen von drei Senior-Personen. 2026 wird genau das zum Automatisierungsproblem: KI-Agenten lesen keine Köpfe, sie lesen Spuren.

Portrait of Elliot Bensabat
Geschrieben von
Elliot Bensabat
Co-founder, Capture
Veröffentlicht
Karte eines aufgezeichneten Leitfadens links, durch einen horizontalen Pfeil mit einem abstrakten Schaltkreis-Würfel-Agenten-Symbol rechts verbunden, brutalistische Editorial-Illustration, die Dokumentation andeutet, die Agenten-Automatisierung speist
Die Zahlen
Tier-1 IT-Tickets
−35%
Nach 20 aufgezeichneten Leitfäden
Zeit bis zur ersten PR
1 Woche
3 Wochen
Sobald der Workflow aufgezeichnet war
Entscheidungspunkte pro Workflow
3 bis 7
Was ein Agent lernen muss
Workflows in Köpfen einzelner Personen
rund 80%
Mid-Market-Baseline
In 60 Sekunden

Die Kurzfassung.

Jeder Workflow, den Ihr Team heute fährt, lebt in einem einzigen Kopf. Brigitte kennt die Abrechnung. Wolfgang kennt den Deploy-Flow. Stefan kennt die Renewal-Motion. Die Senior-Person, die weiß, wie eine Sache erledigt wird, war seit jeher der Engpass für neue Mitarbeitende und Kunden. 2026 wird dieser Engpass zum KI-Engpass. KI-Agenten lesen keine Köpfe. Sie lesen aufgezeichnete Spuren davon, wie der Workflow an einem konkreten Dienstag tatsächlich gelaufen ist. Die Unternehmen, die 2025 ihre Workflows aufgezeichnet haben, sind dieselben, die 2026 Agenten ausrollen. Die anderen sitzen noch in Interviews und versuchen, den Workflow aus dem Senior-Kopf herauszuziehen.

01 · Abschnitt

Der neue Engpass: Workflows sitzen in drei Senior-Köpfen

Workflow-Wissen sitzt seit jeher in drei Senior-Köpfen. Eine Scale-up mit 220 Personen hat ihren IT-Helpdesk mit drei Engineers betrieben, die jeden Montag dieselben zwanzig Fragen beantwortet haben. Die Fragen lebten im Kopf der Senior-Engineers, das Wiki hatte Screenshots aus 2022, und das Team stellte weiter Support-Engineers ein, weil das der einzige bekannte Skalierungspfad war. Dann hat das Team zwanzig Leitfäden in zwei Tagen aufgezeichnet, und das Tier-1-Ticketvolumen ist in acht Wochen um 35% gefallen. Der Engpass ist von menschlicher Verfügbarkeit zur Bibliotheksabdeckung gewandert.

Was als Nächstes kommt, ist die Agentenebene. Sobald ein Workflow aufgezeichnet ist, kann er von einer Person abgespielt, von einem LLM zusammengefasst oder von einem Agenten ausgeführt werden. Dasselbe Artefakt bedient drei Zielgruppen. Die Forschung der Nielsen Norman Group zu der Frage, warum Web-Nutzer scannen statt zu lesen, erklärt, warum Menschen kurze, strukturierte Leitfäden brauchen. Genau dieselbe Eigenschaft (strukturiert, scannbar, nachvollziehbar) braucht ein KI-Agent, um den Workflow zu lernen.

Das Problem 2026: rund 80% der Workflows in einem typischen Mid-Market-Team wurden nie aufgezeichnet. Sie wurden tausendfach von Brigitte, Wolfgang und Stefan ausgeführt. Sie wurden in Notion-Seiten beschrieben, denen niemand vertraut. Sie wurden in Onboarding-Zooms erzählt, die niemand erneut angesehen hat. Keines dieser Formate produziert eine Spur, mit der ein Agent etwas anfangen kann.

Ein Staff-Engineer einer B2B-Observability-Plattform hat exakt dieses Muster gefunden, als er eine 2.400-zeilige Dev-Environment-README durch zwölf Leitfäden ersetzt hat: die README beschrieb das Setup, die Leitfäden zeichneten es nach. Neue Engineers haben ihre erste PR in einer Woche statt in drei gemerged. Ein Agent, der das Aufsetzen der Dev-Umgebung automatisiert, wird dieselben Spuren brauchen, nicht die README.

02 · Abschnitt

Was ein KI-Agent tatsächlich braucht, um einen Workflow zu automatisieren

Ein KI-Agent, der einen Workflow automatisiert, braucht fünf Eingaben. Eine Beschreibung liefert sie nicht. Ein aufgezeichneter Leitfaden schon.

Eingabe
Schrittsequenz
Was es ist
Die geordnete Liste von Klicks und Tastaturaktionen
Wo der aufgezeichnete Leitfaden sie liefert
Die Schrittliste von Capture, in Reihenfolge
Eingabe
Erwarteter Bildschirmzustand
Was es ist
Wie der Bildschirm vor jedem Schritt aussehen muss
Wo der aufgezeichnete Leitfaden sie liefert
Der zeitgestempelte Screenshot pro Schritt
Eingabe
Entscheidungspunkte
Was es ist
Verzweigungen, an denen Operator-Urteil gefragt ist
Wo der aufgezeichnete Leitfaden sie liefert
Die Sprach-Narration am Klick ("wenn der Kunde EU-Plan ist, hier klicken")
Eingabe
Ausnahmebehandlung
Was es ist
Was zu tun ist, wenn ein Schritt fehlschlägt
Wo der aufgezeichnete Leitfaden sie liefert
Verlinkte Troubleshooting-Leitfäden pro Fehlermodus
Eingabe
Begründung
Was es ist
Warum dieser Klick und nicht der andere
Wo der aufgezeichnete Leitfaden sie liefert
Voice-over, in Schritttext überführt

Eine Notion-SOP liefert die Schrittsequenz und manchmal die Begründung. Sie verfehlt den Bildschirmzustand, die Entscheidungspunkte und die Ausnahmebehandlung. Ein Loom-Video liefert den Bildschirmzustand und die Begründung, aber der Agent muss jedes Frame per OCR auslesen und die Audiospur transkribieren, um beides zu extrahieren. Der Loom-Ansatz funktioniert, doch der Extraktionsaufwand ist hoch genug, dass die meisten Teams es gar nicht erst versuchen.

Ein aufgezeichneter Leitfaden, der für menschliche Lesende geschrieben wurde, enthält bereits alle fünf Eingaben in strukturierter Form. Die Computer-Use-Dokumentation von Anthropic und das Model Context Protocol konsumieren beide strukturierte Schrittlisten mit Bildschirmnachweis; das Format lässt sich mit minimaler Transformation in das eine wie das andere überführen. Ein aufgezeichneter Leitfaden ist in der Praxis die billigste Trainingsdaten-Einheit, die ein Unternehmen für einen Agenten produzieren kann. Das Schwere ist die Aufnahme. Die Agenten-Integration ist der einfache Teil.

03 · Abschnitt

Warum aufgezeichnete Leitfäden SOPs und Videos beim Agententraining schlagen

Das Format, das den Extraktionsaufwand des Agenten minimiert, ist das Format, das sich am schnellsten automatisiert. Drei Formate, drei Extraktionskosten.

Notion- oder Confluence-SOP (Extraktionskosten: hoch). Der Agent bekommt Prosa. Er muss die Absicht parsen, die Sequenz inferieren, Entscheidungspunkte raten und den Bildschirmzustand annehmen. Die meisten Agenten, die aus Prosa zu automatisieren versuchen, halluzinieren die nicht beschriebenen Schritte. Die Teams, die das 2025 ausprobiert haben, haben am Ende die SOP als strukturierten Prompt umgeschrieben, was die gleiche Arbeit ist wie der einmalige Aufnahmevorgang.

Loom oder Screen-Recording (Extraktionskosten: mittel-hoch). Der Agent muss OCR auf jedem Frame fahren, das Audio transkribieren und die beiden Ströme synchronisieren. Technisch möglich. Die Forschung der Nielsen Norman Group zu Lesbarkeit und Verständlichkeit unterstreicht, warum Menschen Loom nicht als Dokumentation konsumieren; dasselbe Dichteproblem macht Video zur ineffizienten Eingabe für Agenten. Die Compute-Kosten von Agent-auf-Video sind ebenfalls nicht trivial, sobald Sie auf eine 50-Leitfaden-Bibliothek skalieren.

Aufgezeichneter Leitfaden (Extraktionskosten: niedrig). Der Agent bekommt strukturiertes JSON: geordnete Schritte, zeitgestempelte Screenshots, narratierte Begründung pro Schritt, verlinkte Ausnahme-Handler. Das ist nahe an dem, was die Forschung von Anthropic zu agentenlesbaren Workflows als ideales Eingabeformat beschreibt. Der Agent läuft deterministisch gegen den Leitfaden und trainiert auf einem einzelnen Schritt nach, sobald sich die UI ändert.

Die Kostenasymmetrie verstärkt sich auf Bibliotheksebene. Zwanzig Notion-SOPs sind zwanzig Agenten-Konvertierungsprojekte. Zwanzig aufgezeichnete Leitfäden sind eine Integration. Die Teams, die ihre Bibliothek auf das richtige Format aufbauen, bekommen die Agentenebene quasi geschenkt.

04 · Abschnitt

Wie man so aufzeichnet, dass Menschen und Agenten gleichzeitig profitieren

Der Aufnahmefluss, der einen brauchbaren Leitfaden für menschliche Lesende erzeugt, ist derselbe Fluss, der eine brauchbare Spur für Agenten erzeugt. Drei Ergänzungen schärfen ihn für beide Zielgruppen.

1. Bei jedem Klick das Warum mitsprechen. "Ich klicke Speichern" ist ein Schritt. "Ich klicke Speichern bevor ich die Integration hinzufüge, damit der Workflow nicht verwaist, wenn die Verbindung in Timeout läuft" ist ein Trainingsbeispiel. Sowohl die neue Kollegin, die den Leitfaden liest, als auch der Agent, der den Workflow lernt, brauchen die zweite Variante. Die ersten drei Schrittbeschreibungen sind das, was die Forschung der Nielsen Norman Group zum F-förmigen Lesemuster als Kriterium zeigt, mit dem Lesende entscheiden, ob sie weiterlesen; dasselbe gilt für einen Agenten, der entscheidet, ob er dem Leitfaden so wie geschrieben folgt oder auf einen anderen ausweicht.

2. An Entscheidungspunkten explizit sein. "Wenn der Kunde im EU-Plan ist, klicken Sie Konfiguration DSGVO. Sonst springen Sie zu Schritt 7." Entscheidungspunkte sind genau dort, wo die meisten Agenten scheitern, wenn sie aus Prosa automatisieren. Ein aufgezeichneter Leitfaden, der Verzweigung und Kriterium benennt, lässt sich direkt in Agenten-Kontrollfluss überführen. Die meisten Workflows haben zwischen drei und sieben Entscheidungspunkte; sie durch Wiederabspielen eines Loom zu finden ist teuer, sie in einem strukturierten Leitfaden zu finden ist eine Suche.

3. Fehlermodi als Geschwister-Leitfäden dokumentieren. Jeder bekannte Fehler bekommt einen eigenen kurzen Troubleshooting-Leitfaden, verlinkt vom Hauptleitfaden. Ein Staff-Engineer einer B2B-Observability-Plattform hat genau das gemacht: jeder bekannte Fehlermodus wurde zu einem kurzen Leitfaden, verlinkt aus einem einzigen Engineering-Wiki-Eintrag. Neue Engineers fanden ihren Fehlermodus in Sekunden. Ein Agent macht es genauso: wenn sein Primärpfad scheitert, läuft er den verlinkten Ausnahmeleitfaden ab.

Diese drei Ergänzungen kosten grob zwei Minuten pro Aufnahme. Die Rückzahlung in der Agenten-Integrationszeit misst sich in Tagen. Die Capture-Chrome-Erweiterung ist um genau diesen Aufnahmefluss herum gebaut, und dieselbe Bibliothek, die Ihre Menschen bedient, bedient Ihre Agenten 2026.

05 · Abschnitt

Die Bibliothek verzinst sich: von Dokumentation zu Agenten-Infrastruktur

Die 20-Leitfäden-IT-Bibliothek, die Tier-1-Tickets um 35% gedrückt hat, ist nicht nur Dokumentation. Sie ist eine Automatisierungs-Roadmap. Dasselbe gilt für das zwölf-minütige Kunden-Onboarding-Muster und die SOC-2-SOP-Bibliothek: sobald der Workflow aufgezeichnet ist, ist der nächste offensichtliche Schritt, die einfachsten Fälle zu automatisieren.

Drei Muster spielen sich auf Bibliotheksebene ab.

Der Agent nimmt sich die einfachen Fälle. Der MFA-Reset-Leitfaden wird zu einem MFA-Reset-Agenten, der 80% der Fälle unbeaufsichtigt erledigt. Der VPN-Konfigurations-Leitfaden wird zu einem VPN-Setup-Agenten für neue Kollegen. Die ersten Agenten-Deployments decken die Workflows ab, in denen die Entscheidungspunkte einfach und die Fehlermodi gut dokumentiert sind. Die schwierigen Fälle bleiben bei den Menschen und werden zur Dokumentationsarbeit des nächsten Jahres.

Die Bibliothek wächst in agentenfreundlichen Inkrementen. Sobald das Team verstanden hat, was ein Leitfaden braucht, um agentenlesbar zu sein (Entscheidungspunkte benannt, Fehlermodi verlinkt, Narration explizit), kommen die nächsten zwanzig Leitfäden von Anfang an in dieser Form. Die Bibliothek verzinst sich in Nutzwert, nicht nur in Stückzahl.

Die Auditoren kommen als Nächste. Auditbereite SOPs verlangen schon dieselben Eigenschaften, die ein Agent braucht: zeitgestempelte Ausführung, Nachweis an Entscheidungspunkten, Ausnahmebehandlung. Die Trust Services Criteria der AICPA verlangen Ausführungsnachweis, keine Beschreibung der Policy. Die Methode "Aufnahme zuerst" befriedigt Auditor und Agent gleichermaßen. Zwei Lesergruppen, ein Artefakt. Im DACH-Raum sind die DSGVO-Workflows, die Personio dokumentiert, oder die Compliance-Aufnahmen, die N26 Business für seinen IT-Helpdesk fährt, exakt der Typ Artefakt, den ein Agent morgen abspielen kann. Bei Lieferando-DACH werden interne Onboarding-Routinen für Restaurant-Partner schon heute so erfasst, dass dieselbe Spur in einen späteren Setup-Agenten fließt.

Die Teams, die 2024-2025 dokumentiert haben, sind dieselben, die 2026 Agenten ausrollen. Die Teams, die Dokumentation aufgeschoben haben, fangen bei Null an: sie müssen die Workflows aufnehmen UND die Agenten bauen, sequenziell. Die Asymmetrie verzinst sich. Dokumentation ist kein Nebenprojekt mehr. Sie ist die Voraussetzung für die Automatisierungswelle 2026-2027. Den vollständigen Fall über sechs Teams finden Sie in der Fall für Schritt-für-Schritt-Anleitungen.

Ein aufgezeichneter Leitfaden ist die billigste Trainingsdaten-Einheit, die Ihr Unternehmen je für einen Agenten produzieren wird. Das Schwere ist die Aufnahme. Die Agenten-Integration ist der einfache Teil.
Head of Automation, B2B-Fintech
FAQ

Häufig gestellte Fragen.

Welche KI-Agenten-Plattformen können heute aufgezeichnete Workflow-Leitfäden konsumieren?

Claude Computer Use von Anthropic und jeder Agent, der gegen das Model Context Protocol gebaut ist, konsumieren strukturierte Schrittlisten mit Bildschirmnachweis direkt. OpenAI Assistants und die Agents API konsumieren ähnliches JSON. Browser-Automatisierungs-Frameworks (Playwright plus LLM) konsumieren Markdown-Schrittlisten. Das gemeinsame Muster: strukturiert, geordnet, zeitgestempelt, mit expliziten Entscheidungspunkten. Genau diese Form hat ein aufgezeichneter Leitfaden bereits.

Muss ich warten, bis KI-Agenten reifer sind, bevor ich Workflows aufzeichne?

Nein. Die Aufnahme zahlt sich heute zurück (menschliche Lesende, weniger Tickets, schnelleres Onboarding) und später erneut (Agenten-Trainingsdaten). Die Teams, die 2024-2025 mit Aufnahmen begonnen haben, sind dieselben, die 2026 die tiefste Agenten-Integration haben. Es gibt keine Version dieser Strategie, in der Warten hilft.

Was ist mit Workflows, die nur Brigitte kennt?

Mit den am häufigsten erklärten anfangen. Dasselbe Muster wie für menschliche Lesende: den Workflow nehmen, den Brigitte fünfmal pro Woche erklärt, ihn einmal mit ihrer Narration aufnehmen und beobachten, wie er aufhört, erklärt zu werden. Die Aufnahmedisziplin zwingt das implizite Wissen in eine Form, die Menschen, Agenten und Auditoren gleichermaßen konsumieren können. Die Anleitung zur Dokumentation des Kunden-Onboarding-Workflows führt durch die Aufnahmemethode.

Kann der Agent einen Workflow bewältigen, wenn der Leitfaden unvollständig ist?

Manchmal. Die meisten produktiven Agenten-Deployments 2026 eskalieren bei nicht erkannten Zuständen oder nicht gemappten Entscheidungspunkten an Menschen. Die Vollständigkeit des Leitfadens bestimmt die Eskalationsrate. Entscheidungspunkte explizit zu benennen und Fehlermodi zu verlinken, senkt Eskalationsraten in beobachteten Deployments um etwa eine Größenordnung. Die Aufnahmekosten für explizite Entscheidungspunkte liegen bei zwei Minuten pro Leitfaden; die eingesparten Eskalationskosten messen sich in Operator-Stunden pro Woche.

Ist das nicht einfach ein KI-Hype-Winkel, um Dokumentationswerkzeuge zu verkaufen?

Der aufgezeichnete Leitfaden zahlt sich mit oder ohne Agent zurück. Der Agentenwinkel ist Upside, nicht das Kernversprechen. Ein Vier-Personen-CS-Team, das mit Leitfäden den Zoom-Termin überspringt, ein IT-Team, das Tier-1-Tickets reduziert, eine Agentur, die die Übergabe in eine abrechenbare Position verwandelt: all diese Gewinne existieren unabhängig davon, ob das Unternehmen je einen Agenten ausrollt. Die Agentenebene ist das nächste Jahrzehnt, das oben drauf verzinst.

Der nächste Schritt

Beginnen Sie mit der Aufnahme, bevor Ihre Agenten sie brauchen. Beides zahlt sich aus.

Capture verwandelt einen Workflow in zwölf Minuten in einen strukturierten Leitfaden. Kostenlose Chrome-Erweiterung, ohne Anmeldung. Dieselbe Bibliothek, die Ihren Menschen hilft, den Zoom-Termin zu überspringen, bedient Ihre Agenten, sobald sie 2026 eintreffen.

Ausprobieren

Nimm einen Workflow auf.

Kostenlose Chrome-Erweiterung. Keine Anmeldung erforderlich.