KI-Agenten scheitern im Unternehmenseinsatz selten an einem einzelnen schlechten Prompt. Häufiger liegen die Probleme in Planung, Tool-Nutzung und Verifikation: Der Agent wählt den falschen Schritt, interpretiert ein Ergebnis falsch oder hält eine Aufgabe für erledigt, obwohl sie es nicht ist.
IBM Research und die UC Berkeley haben diese Fehlermuster mit ITBench und MAST systematisch untersucht. Der Wert der Arbeit liegt nicht darin, einen weiteren Score zu liefern. Sie zeigt, warum klassische Benchmarks zu wenig erklären und weshalb Unternehmen Agenten anders evaluieren müssen, bevor sie produktiv arbeiten.
Kontext: Wenn Benchmarks nicht mehr reichen
Bisherige Evaluierungen von KI-Agenten endeten meist mit einer simplen Zahl: Aufgabe gelöst: ja oder nein. Was dabei auf der Strecke blieb: das Warum des Scheiterns. Genau hier setzt die neue Arbeit von IBM Research und UC Berkeley an.
Die Forscher kombinierten zwei Werkzeuge: ITBench, ein Branchen-Benchmark für IT-Automatisierung in den Bereichen Site Reliability Engineering (SRE), Security und FinOps, und MAST (Multi-Agent System Failure Taxonomy), ein strukturiertes Framework zur Diagnose von Agentenfehlern. Statt nur zu messen, ob ein Agent eine Aufgabe abgeschlossen hat, analysierten sie, was beim Scheitern konkret schiefgelaufen ist.
Die Datenbasis: 310 annotierte SRE-Traces aus ITBench, ausgeführt von drei verschiedenen Modellen: Gemini-3-Flash, Kimi-K2 und GPT-OSS-120B. Die Aufgaben umfassten realistische IT-Szenarien: Incident-Triage, Log- und Metrik-Analysen sowie Kubernetes-Operationen in komplexen, mehrstufigen Tool-Schleifen.
Das Ergebnis ist ernüchternd, aber erhellend: Kein Modell besteht diese Aufgaben zuverlässig. Die Art, wie sie scheitern, unterscheidet sich jedoch deutlich. Genau das ist der eigentlich wertvolle Befund dieser Studie. Zum ersten Mal existiert eine strukturierte Sprache für das, was in produktiven Agentensystemen tatsächlich schiefläuft.
Was steckt dahinter: Die Anatomie des Scheiterns
Die Analyse offenbarte ein klares Muster. Frontier-Modelle wie Gemini-3-Flash scheitern "sauber": im Durchschnitt nur 2,6 Fehlermodi pro Trace, meist an einem isolierten Engpass, etwa beim Verifizieren eines Ergebnisses. Das ist bedeutsam, weil es gezielte Optimierung erst möglich macht: Wer weiß, dass ein Modell systematisch bei der Verifikation stolpert, kann genau dort ansetzen.
Schwächere Modelle hingegen zeigen komplexere Fehlerkaskaden: Mehrere Probleme greifen ineinander, was Diagnose und Behebung deutlich schwieriger macht.
MAST klassifiziert diese Fehler entlang mehrerer Dimensionen: fehlerhafte Planung (der Agent wählt die falsche Vorgehensweise), falsche Tool-Nutzung (inkorrekte API-Calls, fehlinterpretierte Ausgaben) sowie Verifikationsfehler (der Agent hält sich für fertig, ist es aber nicht). Besonders tückisch: Verifikationsfehler treten häufig als letzter Schritt auf. Der Agent hat die eigentliche Aufgabe korrekt bearbeitet, merkt aber nicht, dass das Ergebnis falsch ist.
Das ist kein akademisches Problem. In produktiven IT-Umgebungen, etwa bei Kubernetes-Orchestrierung, Incident-Response oder Security-Automatisierung, kann ein unerkannter Fehler im Abschlussschritt fatale Folgen haben. Die Studie zeigt damit, dass die übliche Praxis, Agenten an synthetischen Benchmarks zu messen und dann in Produktion zu schicken, die Vielfalt realer Fehlermodi systematisch unterschätzt.
Was die Forschung außerdem verdeutlicht: Die klassische Metrik "Task-Completion-Rate" ist irreführend. Ein Agent, der 60 Prozent der Aufgaben "erfolgreich" abschließt, kann in den restlichen Fällen unkontrolliert scheitern. Von außen sehen die Fehler identisch aus.
Was bedeutet das für Unternehmen?
Wer KI-Agenten im Unternehmenseinsatz evaluiert oder bereits produktiv betreibt, sollte diese Studie als Warnsignal ernst nehmen, aber auch als praktisches Werkzeug.
Erstens: Benchmarks mit Diagnose statt Benchmarks mit Score. Unternehmen sollten nicht nur messen, ob eine Aufgabe gelöst wurde, sondern auch, wie und warum ein Agent scheitert. Frameworks wie MAST bieten hierfür einen praxistauglichen Einstieg. Datensätze und Code sind öffentlich auf Hugging Face und GitHub verfügbar und lassen sich in bestehende Evaluierungsprozesse integrieren.
Zweitens: Modellwahl nach Fehlertyp. Für kritische Produktivsysteme sind Modelle mit wenigen, isolierten Fehlermodi einfacher zu überwachen und abzusichern als Systeme mit komplexen Fehlerkaskaden. Die Modellwahl ist damit keine reine Leistungsfrage, sondern auch eine Frage der Kontrollierbarkeit und Auditierbarkeit.
Drittens: Human-in-the-Loop gezielt platzieren. Die Studie zeigt, dass Verifikation ein systematischer Schwachpunkt ist. Für kritische Abschlussschritte braucht es deshalb explizite Prüfroutinen: durch einen zweiten Agenten, ein Regelwerk oder menschliche Kontrolle.
Dieser Artikel erklärt, warum Agenten scheitern und wie sich Fehler diagnostizieren lassen. Die ergänzende Einführung zu KI-Agenten im Unternehmen ordnet ein, welche Aufgaben sich eignen, wie Governance aussehen kann und welche Rolle DSGVO, Kosten und Rechtekonzepte spielen.
Für KMUs gilt zusätzlich: Ohne dediziertes ML-Team ist die Eigenentwicklung komplexer Agentensysteme riskant. Open-Source-Tools wie ITBench ermöglichen es aber, fertige Lösungen realistischer zu evaluieren, bevor sie in den Echtbetrieb gehen.
Fazit
Die Forschung von IBM und UC Berkeley liefert etwas, das bisher fehlte: eine präzise Sprache für das Scheitern von KI-Agenten. Nicht "der Agent hat versagt", sondern: Der Agent hat bei Schritt X aus Grund Y versagt, und bei Modell Z passiert das systematisch. Das ist der Unterschied zwischen strukturiertem Debugging und blindem Raten.
Für Unternehmen ist die Botschaft klar: Die Technologie ist nicht pauschal unreif, aber die Evaluationspraxis ist es oft. Wer KI-Agenten produktiv einsetzen will, braucht kein blindes Vertrauen in Benchmark-Scores, sondern strukturierte Fehleranalyse. MAST und ITBench sind ein solider Ausgangspunkt, und sie sind kostenlos verfügbar. Es gibt keine Ausrede, sie nicht zu nutzen.
Meine Meinung
Was regelmäßig übersehen wird: Viele Unternehmen messen ihre Agenten an Task-Completion-Rates und nennen das Evaluation. Das ist, als würde man ein Auto nur darauf testen, ob es anspringt, nicht ob es bremst. IBM und Berkeley liefern eine Anatomie des Versagens: substanziell, nicht Hype. Langfristig bedeutet das: Wer KI-Agenten produktiv einsetzt, wird auch deren Fehlerverhalten erklären müssen. "Der Agent hat es falsch gemacht" wird keine akzeptable Antwort sein.
Weiterführende Quellen
Signal der Woche. Eine Nachricht. Eine Analyse. Jeden Freitag im Newsletter. aisyndicate.ch/#/portal