Kontext-Engineering für Agenten
Agentic AI weckt große Erwartungen: Weg vom reaktiven Antwortgeber, hin zum proaktiven Akteur, der Ziele versteht, Aufgaben plant, Tools nutzt und Schritte eigenständig ausführt. In der Praxis scheitern viele Vorhaben nicht an der Intelligenz der Modelle, sondern an der Relevanz des Kontexts. Kontext-Engineering kann helfen.
Die aktuellen Studien zeichnen ein klares Bild. McKinsey beschreibt das „Gen-AI-Paradox“ – breite Nutzung, aber geringe Bottom-line-Effekte, insbesondere bei horizontalen Copilots. Hebel für messbaren Impact liegen in vertikalen, prozessnahen Anwendungen, die bislang selten über die Pilotphase hinauskommen. Eine aktuelle Studie von Lünendonk bestätigt: Die Skalierung scheitert weniger an der Technologie, sondern an Change, Organisation und Datenqualität. Genau hier setzt Kontext-Engineering an.
Was Kontext-Engineering ausmacht
Kontext-Engineering ist die systematische Bereitstellung des richtigen Kontexts und der richtigen Tools zur richtigen Zeit mit klaren Leitplanken und messbarer Qualität im Betrieb. Es umfasst die Vereinheitlichung heterogener Daten (strukturiert und unstrukturiert), die Relevanzsteuerung im Retrieval, präzise Werkzeuge, sichere Aktionsketten sowie Observability und Evaluation als kontinuierliche Rückkopplung. Relevanz steht dabei im Zentrum. Statt einfach mehr Daten ins Kontextfenster zu schieben, geht es um richtige Daten für die konkrete Aufgabe. In der Praxis bewähren sich hybride Retrieval-Strategien, die semantische Suche mit Schlüsselwort-, Geo- oder Graphabfragen kombinieren und Ergebnisse per Re-Ranking veredeln. Je nach Fragestellung liefern Aggregationen, Zeitreihen oder Visualisierungen mehr Nutzen als die Top-1-Textpassage. Und weil Relevanz vom Datensatz, der Absicht und dem Nutzerkontext abhängt, braucht es die passende Mischung aus verschiedenen Methoden.
Der häufigste Fehler liegt im Dokumenten-Dump. Große Textmengen werden unstrukturiert in den Kontext gekippt, in der Hoffnung, dass das Modell schon das Richtige findet. Das führt zu höheren Kosten, verschlechtert die Antwortqualität und vergrößert das Risiko von Fehlinterpretationen. Besser eignet sich ein Tool-first-Ansatz: spezialisierte Abfragen, die genau die Felder, Zeiträume und Filter ziehen, die zur Frage passen – und nichts darüber hinaus. So wird das Sprachmodell nicht mit Rauschen belastet, sondern mit kuratiertem, überprüfbarem Kontext versorgt.
Ein weiterer Baustein sind sichere Aktionen und Workflows. Antworten allein genügen nicht, in vielen Szenarien sollen Agenten auch Schritte einleiten: ein Meeting vorbereiten, eine Visualisierung erstellen, Informationen versenden oder einen Prozess anstoßen. Diese Aktionen gehören hinter klar definierte Leitplanken, darunter Rollen, Berechtigungen, Auditierbarkeit und Eskalationspfade. Nur so lassen sich Autonomie und Sicherheit zusammenbringen.
Betriebssicht: messen statt glauben
Kontext-Engineering endet nicht beim Entwurf. Im Betrieb entscheidet sich, ob Agenten verlässlich liefern. Dazu gehören Telemetrie, Kosten- und Token-Tracking, Latenzen, Fehlerraten, Nutzungsmetriken und die Fähigkeit, Fehlerpfade nachzuvollziehen. Evaluation wirkt auf zwei Ebenen: offline mit Precision/Recall-Analysen und Retrievability-Tests, online mit A/B-Vergleichen für Prompts und KPI-gestützten Entscheidungen über Korrekturmaßnahmen. Schrittweise Verbesserungen, Versionierung und ein stringentes Release-Management können dabei helfen, dass Agenten nicht zur Blackbox werden.
Am Ablauf eines Praxisbeispiels lässt sich das Prinzip Agent nachvollziehen. Ein generischer Konversationsagent beantwortet Fragen zu Geschäftsdaten nicht, indem er alles liest, sondern indem er ein domänenspezifisches Zusammenfassungs-Tool nutzt: eine parametrisierte Abfrage, die die Top-20-Kunden nach Portfolio-Wert als Tabelle und Chart zurückgibt. Das Modell erhält strukturierten Kontext mit klaren Feldern statt unstrukturierter Dokumente. Die Visualisierung wird nicht halluziniert, sondern ist Ergebnis reproduzierbarer Abfragen. In einem zweiten Schritt wird aus der Antwort eine Maßnahme: Der Agent erstellt eine knappe Meeting-Agenda und verschickt sie als orchestrierten Workflow mit nachvollziehbaren Schritten. Eine „Thinking“-Ansicht zeigt die getroffenen Entscheidungen, verwendeten Tools und Parameter. So bleiben Entscheidungen überprüfbar und wiederholbar, anstatt vom Zufall einzelner Prompt-Runden abzuhängen.
Mit wachsender Autonomie steigen jedoch auch die Anforderungen an Governance. McKinsey spricht von einem „Agentic AI Mesh“ – nicht als Produkt, sondern als Organisationsprinzip, das Komponierbarkeit, Offenheit für Standards, kontrollierte Autonomie und Beobachtbarkeit zusammenführt. Entscheidend ist, sogenannten Sprawl zu vermeiden: Ohne klare Regeln für Erstellung, Katalogisierung, Klassifikation und Lebenszyklus wuchern Agenten, die sich überlappen, widersprechen oder veralten. Ein abgestuftes Berechtigungsmodell und definierte Eskalationsmechanismen sorgen dafür, dass Agenten handeln dürfen, aber nicht unbemerkt außerhalb ihrer Zuständigkeit.
Datenqualität beginnt im Log
Relevanz setzt zudem Datenqualität voraus, und die entsteht nicht erst am Ende der Pipeline. Ein verbreitetes Muster: Dashboards zeigen Symptome, nicht Ursachen. Das Warum steckt in Logs, wird aber wegen Masse und Heterogenität selten konsequent genutzt. KI-gestützte Vorverarbeitung kann hier den Knoten lösen. Roh-Logs werden in logische Entitäten (etwa App- oder Kubernetes-Kontexte) partitioniert, relevante Felder automatisch extrahiert und konsistent benannt. Statt Millionen von Einträgen rücken sogenannte Significant Events in den Fokus – Out-of-Memory-Fehler, 500er-Serien, kritische Start- oder Shutdown-Meldungen. Das kann Untersuchungen beschleunigen und Pipeline-Komplexität reduzieren. Zugleich entsteht ein belastbarer Kontext für Agenten, die Diagnose und Maßnahmen verbinden.
Laut Lünendonk scheitert die Skalierung selten an Modellen, sondern an Zusammenarbeit, Verantwortlichkeiten und realistischem Erwartungsmanagement. Es empfiehlt sich, Fachbereiche früh einzubinden, nachvollziehbare Nutzenziele zu definieren und die Technik auf die Prozesse auszurichten, nicht umgekehrt. Für Agenten heißt das: zunächst schlanke, eng umrissene Anwendungsfälle, die echten Prozessschmerz adressieren; Tool-first-Design statt Dokument-Dumps; Leitplanken und Audits von Anfang an; Metriken, die den Unterschied zwischen nettem Demo-Effekt und messbarer Verbesserung sichtbar machen.
Ausblick: Agenten als Prozessinnovation
Agenten sind kein Zusatz-Interface, sondern eine Chance, Prozesse neu zu denken. Wie McKinsey argumentiert, ist der Sprung vom Use Case zur Prozess-Reinvention überfällig: weg vom menschzentrierten Abarbeiten, hin zu elastischen, adaptiven Workflows, in denen Agenten proaktiv werden und Menschen dort einbinden, wo Urteilskraft, Verantwortung oder Kreativität gefragt sind. Die Voraussetzungen dafür sind klar: Governance etablieren, Datenqualität heben, agentenzentrierte Workflows entwerfen und konsequent messen, was wirkt. Wer Kontext-Engineering als End-to-End-Disziplin versteht, kann aus generativer KI verlässliche, auditierbare und produktive Agenten machen. Der Unterschied zeigt sich im Prozess und am Ergebnis.
Markus Klose ist Director Solutions Architecture, EMEA Central at Elastic.