Effektives Context Engineering für KI-Agenten
Veröffentlicht am 29. September 2025
Kontext ist eine kritische, aber endliche Ressource für KI-Agenten. In diesem Beitrag untersuchen wir Strategien zur effektiven Kuratierung und Verwaltung des Kontexts, der sie antreibt.
Nachdem das Prompt Engineering einige Jahre lang im Fokus der angewandten KI stand, ist ein neuer Begriff in den Vordergrund gerückt: Context Engineering. Das Bauen mit Sprachmodellen dreht sich weniger darum, die richtigen Wörter und Phrasen für Ihre Prompts zu finden, sondern mehr darum, die umfassendere Frage zu beantworten: „Welche Konfiguration von Kontext erzeugt am ehesten das gewünschte Verhalten unseres Modells?“
Kontext bezieht sich auf den Satz von Token, die beim Sampling eines Large Language Models (LLM) einbezogen werden. Das vorliegende technische Problem besteht darin, den Nutzen dieser Token gegen die inhärenten Einschränkungen von LLMs zu optimieren, um konsistent ein gewünschtes Ergebnis zu erzielen. Das effektive Bändigen von LLMs erfordert oft ein Denken in Kontexten – mit anderen Worten: die Berücksichtigung des ganzheitlichen Zustands, der dem LLM zu jedem Zeitpunkt zur Verfügung steht, und welche potenziellen Verhaltensweisen dieser Zustand hervorrufen könnte.
In diesem Beitrag werden wir die aufkommende Kunst des Context Engineering untersuchen und ein verfeinertes mentales Modell für den Aufbau steuerbarer, effektiver Agenten anbieten.
Context Engineering vs. Prompt Engineering
Bei Anthropic betrachten wir Context Engineering als die natürliche Weiterentwicklung des Prompt Engineering. Prompt Engineering bezieht sich auf Methoden zum Schreiben und Organisieren von LLM-Anweisungen für optimale Ergebnisse. Context Engineering bezieht sich auf die Strategien zur Kuratierung und Aufrechterhaltung des optimalen Satzes von Token (Informationen) während der LLM-Inferenz, einschließlich aller anderen Informationen, die außerhalb der Prompts dort landen können.
In der Anfangszeit der Arbeit mit LLMs war das Prompting der größte Bestandteil der KI-Entwicklung, da die Mehrheit der Anwendungsfälle außerhalb alltäglicher Chat-Interaktionen Prompts erforderte, die für One-Shot-Klassifizierungs- oder Textgenerierungsaufgaben optimiert waren. Wie der Begriff impliziert, liegt der Schwerpunkt des Prompt Engineering darauf, wie man effektive Prompts schreibt, insbesondere System-Prompts. Da wir uns jedoch in Richtung der Entwicklung fähigerer Agenten bewegen, die über mehrere Inferenzschritte und längere Zeithorizonte hinweg operieren, benötigen wir Strategien zur Verwaltung des gesamten Kontextzustands (Systemanweisungen, Tools, Model Context Protocol (MCP), externe Daten, Nachrichtenverlauf usw.).
Ein Agent, der in einer Schleife läuft, erzeugt immer mehr Daten, die für den nächsten Inferenzschritt relevant sein könnten, und diese Informationen müssen zyklisch verfeinert werden. Context Engineering ist die Kunst und Wissenschaft der Kuratierung dessen, was aus diesem sich ständig entwickelnden Universum an möglichen Informationen in das begrenzte Kontextfenster gelangt.
Im Gegensatz zur diskreten Aufgabe des Schreibens eines Prompts ist Context Engineering iterativ, und die Kuratierungsphase findet jedes Mal statt, wenn wir entscheiden, was an das Modell übergeben werden soll.
Warum Context Engineering für den Aufbau fähiger Agenten wichtig ist
Trotz ihrer Geschwindigkeit und der Fähigkeit, immer größere Datenmengen zu verwalten, haben wir beobachtet, dass LLMs, genau wie Menschen, ab einem gewissen Punkt den Fokus verlieren oder Verwirrung erleben. Studien zu Benchmarks im Stil der „Nadel im Heuhaufen“ (Needle-in-a-Haystack) haben das Konzept der Kontext-Fäule (Context Rot) aufgedeckt: Mit zunehmender Anzahl von Token im Kontextfenster nimmt die Fähigkeit des Modells ab, Informationen aus diesem Kontext präzise abzurufen.
Während einige Modelle eine sanftere Degradierung aufweisen als andere, tritt diese Eigenschaft bei allen Modellen auf. Kontext muss daher als eine endliche Ressource mit abnehmendem Grenznutzen behandelt werden. Ähnlich wie Menschen, die eine begrenzte Arbeitsgedächtniskapazität haben, verfügen LLMs über ein „Aufmerksamkeitsbudget“, auf das sie beim Parsen großer Kontextmengen zurückgreifen. Jeder neue eingeführte Token verbraucht dieses Budget um einen gewissen Betrag, was die Notwendigkeit erhöht, die dem LLM zur Verfügung stehenden Token sorgfältig zu kuratieren.
Diese Aufmerksamkeitsknappheit resultiert aus architektonischen Einschränkungen von LLMs. LLMs basieren auf der Transformer-Architektur, die es jedem Token ermöglicht, jedem anderen Token über den gesamten Kontext hinweg Aufmerksamkeit zu schenken. Dies führt zu n² paarweisen Beziehungen für n Token.
Mit zunehmender Kontextlänge wird die Fähigkeit eines Modells, diese paarweisen Beziehungen zu erfassen, dünner, was ein natürliches Spannungsfeld zwischen Kontextgröße und Aufmerksamkeitsfokus erzeugt. Darüber hinaus entwickeln Modelle ihre Aufmerksamkeitsmuster aus Trainingsdatenverteilungen, in denen kürzere Sequenzen typischerweise häufiger vorkommen als längere. Das bedeutet, dass Modelle weniger Erfahrung mit – und weniger spezialisierte Parameter für – kontextweite Abhängigkeiten haben.
Techniken wie die Interpolation der Positionskodierung ermöglichen es Modellen, längere Sequenzen zu handhaben, indem sie diese an den ursprünglich trainierten kleineren Kontext anpassen, wenn auch mit einer gewissen Verschlechterung des Verständnisses der Token-Positionen. Diese Faktoren erzeugen eher einen Leistungsgradienten als eine harte Klippe: Modelle bleiben bei längeren Kontexten hochgradig fähig, können jedoch eine verringerte Präzision bei der Informationsabfrage und dem Schlussfolgern über lange Distanzen zeigen, verglichen mit ihrer Leistung bei kürzeren Kontexten.
Diese Realitäten bedeuten, dass ein durchdachtes Context Engineering für den Aufbau fähiger Agenten unerlässlich ist.
Die Anatomie von effektivem Kontext
Da LLMs durch ein begrenztes Aufmerksamkeitsbudget eingeschränkt sind, bedeutet gutes Context Engineering, den kleinstmöglichen Satz an hochsignifikanten Token zu finden, die die Wahrscheinlichkeit eines gewünschten Ergebnisses maximieren. Die Umsetzung dieser Praxis ist viel leichter gesagt als getan, aber im folgenden Abschnitt skizzieren wir, was dieses Leitprinzip in der Praxis für die verschiedenen Komponenten des Kontexts bedeutet.
System-Prompts
System-Prompts sollten extrem klar sein und eine einfache, direkte Sprache verwenden, die Ideen auf der richtigen Flughöhe für den Agenten präsentiert. Die richtige Flughöhe ist die „Goldlöckchen-Zone“ zwischen zwei häufigen Fehlermustern:
- Am einen Extrem kodieren Entwickler komplexe, spröde Logik fest in ihre Prompts ein, um ein exaktes agentisches Verhalten hervorzurufen. Dieser Ansatz führt zu Zerbrechlichkeit und erhöht die Wartungskomplexität im Laufe der Zeit.
- Am anderen Extrem geben Entwickler manchmal vage, allgemeine Anleitungen, die dem LLM keine konkreten Signale für gewünschte Ausgaben liefern oder fälschlicherweise einen gemeinsamen Kontext voraussetzen.
Die optimale Flughöhe schafft ein Gleichgewicht: spezifisch genug, um das Verhalten effektiv zu steuern, und dennoch flexibel genug, um dem Modell starke Heuristiken an die Hand zu geben.
Wir empfehlen, Prompts in verschiedene Abschnitte zu organisieren (wie , , ## Tool guidance, ## Output description usw.) und Techniken wie XML-Tags oder Markdown-Header zu verwenden, um diese Abschnitte abzugrenzen, obwohl die genaue Formatierung wahrscheinlich weniger wichtig wird, da die Modelle immer fähiger werden.
Unabhängig davon, wie Sie Ihren System-Prompt strukturieren, sollten Sie den minimalen Satz an Informationen anstreben, der Ihr erwartetes Verhalten vollständig umreißt. (Beachten Sie, dass „minimal“ nicht zwangsläufig „kurz“ bedeutet; Sie müssen dem Agenten im Vorfeld genügend Informationen geben, um sicherzustellen, dass er sich an das gewünschte Verhalten hält.) Am besten beginnen Sie damit, einen minimalen Prompt mit dem besten verfügbaren Modell zu testen, um zu sehen, wie es bei Ihrer Aufgabe abschneidet, und fügen dann klare Anweisungen und Beispiele hinzu, um die Leistung basierend auf Fehlermustern zu verbessern, die bei ersten Tests gefunden wurden.
Tools
Tools ermöglichen es Agenten, mit ihrer Umgebung zu interagieren und während der Arbeit neuen, zusätzlichen Kontext einzubringen. Da Tools den Vertrag zwischen Agenten und ihrem Informations-/Aktionsraum definieren, ist es extrem wichtig, dass Tools die Effizienz fördern – sowohl indem sie Informationen zurückgeben, die token-effizient sind, als auch indem sie effizientes Agentenverhalten fördern.
Tools sollten in sich geschlossen, robust gegenüber Fehlern und extrem klar in Bezug auf ihre beabsichtigte Verwendung sein. Eingabeparameter sollten ebenfalls beschreibend und eindeutig sein und die inhärenten Stärken des Modells ausspielen.
Eines der häufigsten Fehlermuster, die wir sehen, sind aufgeblähte Tool-Sets, die zu viel Funktionalität abdecken oder zu mehrdeutigen Entscheidungspunkten führen, welches Tool verwendet werden soll. Wenn ein menschlicher Entwickler nicht definitiv sagen kann, welches Tool in einer bestimmten Situation verwendet werden sollte, kann man von einem KI-Agenten nicht erwarten, dass er es besser macht. Wie wir später besprechen werden, kann die Kuratierung eines minimal lebensfähigen Satzes an Tools für den Agenten auch zu einer zuverlässigeren Wartung und Bereinigung des Kontexts bei langen Interaktionen führen.
Beispiele
Das Bereitstellen von Beispielen, auch bekannt als Few-Shot Prompting, ist eine bekannte Best Practice, die wir weiterhin dringend empfehlen. Teams stopfen jedoch oft eine lange Liste von Grenzfällen in einen Prompt, um jede mögliche Regel zu artikulieren. Wir empfehlen dies nicht. Stattdessen empfehlen wir, einen Satz vielfältiger, kanonischer Beispiele zu kuratieren, die das erwartete Verhalten des Agenten effektiv darstellen. Für ein LLM sind Beispiele die „Bilder“, die mehr als tausend Worte sagen.
Unsere allgemeine Empfehlung für die verschiedenen Komponenten des Kontexts besteht darin, bedacht vorzugehen und Ihren Kontext informativ, aber straff zu halten.
Kontext-Abruf (Retrieval) und agentische Suche
Wir definieren Agenten einfach als: LLMs, die autonom Tools in einer Schleife verwenden.
Mit zunehmender Leistungsfähigkeit der zugrunde liegenden Modelle kann die Autonomie der Agenten skalieren: Intelligentere Modelle ermöglichen es Agenten, eigenständig nuancierte Problemräume zu navigieren und sich von Fehlern zu erholen.
Wir sehen derzeit eine Verschiebung darin, wie Entwickler über das Design von Kontext für Agenten denken. Heute nutzen viele KI-native Anwendungen eine Form des Embedding-basierten Retrievals vor der Inferenz, um wichtigen Kontext für den Agenten bereitzustellen. Mit dem Übergang zu agentischeren Ansätzen sehen wir zunehmend Teams, die diese Retrieval-Systeme durch „Just-in-Time“-Kontextstrategien ergänzen.
Anstatt alle relevanten Daten vorab zu verarbeiten, behalten Agenten, die mit dem „Just-in-Time“-Ansatz erstellt wurden, leichtgewichtige Identifikatoren (Dateipfade, gespeicherte Abfragen, Weblinks usw.) bei und verwenden diese Referenzen, um Daten zur Laufzeit mithilfe von Tools dynamisch in den Kontext zu laden. Claudes agentische Coding-Lösung, Claude Code, nutzt diesen Ansatz. Das Modell kann gezielte Abfragen schreiben, Ergebnisse speichern und Bash-Befehle wie head und tail nutzen, um große Datenmengen zu analysieren, ohne jemals die vollständigen Datenobjekte in den Kontext zu laden. Dieser Ansatz spiegelt die menschliche Kognition wider: Wir merken uns im Allgemeinen keine ganzen Informationskorpora, sondern nutzen externe Organisationssysteme wie Dateisysteme, Posteingänge und Lesezeichen, um relevante Informationen bei Bedarf abzurufen.
Wenn man Agenten Daten autonom navigieren und abrufen lässt, ermöglicht dies auch eine progressive Offenlegung (Progressive Disclosure) – mit anderen Worten, es erlaubt Agenten, relevanten Kontext schrittweise durch Exploration zu entdecken. Jede Interaktion liefert Kontext, der die nächste Entscheidung beeinflusst. Agenten können Verständnis Schicht für Schicht aufbauen und nur das im Arbeitsgedächtnis behalten, was notwendig ist.
Natürlich gibt es einen Kompromiss: Die Exploration zur Laufzeit ist langsamer als das Abrufen vorab berechneter Daten. Zudem ist ein durchdachtes Engineering erforderlich, um sicherzustellen, dass ein LLM die richtigen Tools und Heuristiken hat. In bestimmten Umgebungen könnten die effektivsten Agenten eine Hybridstrategie anwenden: einige Daten vorab für die Geschwindigkeit abrufen und weitere autonome Exploration nach eigenem Ermessen verfolgen.
Context Engineering für Aufgaben mit langem Zeithorizont
Aufgaben mit langem Zeithorizont erfordern, dass Agenten Kohärenz, Kontext und zielgerichtetes Verhalten über Sequenzen von Aktionen hinweg aufrechterhalten, bei denen die Token-Anzahl das Kontextfenster des LLM übersteigt. Um Agenten zu ermöglichen, über längere Zeiträume effektiv zu arbeiten, haben wir Techniken entwickelt, die Kontext-Verschmutzung adressieren: Kompaktierung (Compaction), strukturiertes Notizenmachen und Multi-Agenten-Architekturen.
Kompaktierung (Compaction)
Kompaktierung ist die Praxis, eine Konversation, die sich dem Limit des Kontextfensters nähert, zusammenzufassen und ein neues Kontextfenster mit dieser Zusammenfassung zu initiieren. In Claude Code implementieren wir dies, indem wir den Nachrichtenverlauf an das Modell übergeben, um die kritischsten Details zusammenzufassen und zu komprimieren. Das Modell bewahrt Architekturentscheidungen, ungelöste Fehler und Implementierungsdetails, während es redundante Tool-Ausgaben verwirft.
Die Kunst der Kompaktierung liegt in der Auswahl dessen, was behalten versus was verworfen wird. Wir empfehlen, Ihr Prompting sorgfältig an komplexen Agenten-Traces zu tunen. Beginnen Sie damit, den Recall zu maximieren, um sicherzustellen, dass alle relevanten Informationen erfasst werden, und iterieren Sie dann, um die Präzision zu verbessern, indem überflüssiger Inhalt eliminiert wird (z. B. das Entfernen von rohen Tool-Ergebnissen, sobald diese tief in der Historie liegen).
Strukturiertes Notizenmachen
Strukturiertes Notizenmachen oder „agentisches Gedächtnis“ ist eine Technik, bei der der Agent regelmäßig Notizen schreibt, die außerhalb des Kontextfensters im Speicher abgelegt werden. Diese Notizen werden zu späteren Zeitpunkten wieder in das Kontextfenster geladen.
Dieses einfache Muster ermöglicht es dem Agenten, Fortschritte bei komplexen Aufgaben zu verfolgen und kritische Abhängigkeiten beizubehalten, die sonst über Dutzende von Tool-Aufrufen hinweg verloren gehen würden. Ein Beispiel ist ein Agent, der Pokémon spielt: Er führt präzise Listen über tausende von Spielschritten (z. B. welche Gebiete erkundet wurden, welche Kampfstrategien gegen bestimmte Gegner funktionieren). Nach Kontext-Resets liest der Agent seine eigenen Notizen und setzt die mehrstündige Sequenz fort.
Im Rahmen des Sonnet 4.5-Launches haben wir ein Memory-Tool in der öffentlichen Beta auf der Claude Developer Platform veröffentlicht, das es einfacher macht, Informationen außerhalb des Kontextfensters über ein dateibasiertes System zu speichern und zu konsultieren.
Sub-Agenten-Architekturen
Sub-Agenten-Architekturen bieten einen weiteren Weg um Kontextbeschränkungen herum. Anstatt dass ein Agent versucht, den Zustand eines gesamten Projekts zu halten, können spezialisierte Sub-Agenten fokussierte Aufgaben mit sauberen Kontextfenstern bearbeiten. Der Hauptagent koordiniert mit einem übergeordneten Plan, während Sub-Agenten tiefgreifende technische Arbeit leisten oder Tools nutzen, um Informationen zu finden. Jeder Sub-Agent liefert nur eine kondensierte Zusammenfassung seiner Arbeit zurück (oft 1.000–2.000 Token).
Die Wahl zwischen diesen Ansätzen hängt von der Aufgabe ab: - Kompaktierung bewahrt den Gesprächsfluss bei Aufgaben mit viel Hin und Her.
- Notizenmachen eignet sich hervorragend für iterative Entwicklung mit klaren Meilensteinen.
- Multi-Agenten-Architekturen bewähren sich bei komplexer Recherche und Analyse, wo parallele Exploration Vorteile bringt.
Fazit
Context Engineering stellt einen grundlegenden Wandel in der Art und Weise dar, wie wir mit LLMs bauen. Da Modelle immer fähiger werden, besteht die Herausforderung nicht nur darin, den perfekten Prompt zu entwerfen – sondern darin, sorgfältig zu kuratieren, welche Informationen in jedem Schritt in das begrenzte Aufmerksamkeitsbudget des Modells gelangen. Das Leitprinzip bleibt dasselbe: Finden Sie den kleinsten Satz an hochsignifikanten Token, die die Wahrscheinlichkeit Ihres gewünschten Ergebnisses maximieren.
Sogar wenn die Fähigkeiten skalieren, wird die Behandlung von Kontext als kostbare, endliche Ressource zentral für den Aufbau zuverlässiger, effektiver Agenten bleiben.
- Danksagungen: Geschrieben vom Applied AI-Team von Anthropic: Prithvi Rajasekaran, Ethan Dixon, Carly Ryan und Jeremy Hadfield, mit Beiträgen von Rafi Ayub, Hannah Moran, Cal Rueb und Connor Jennings. Besonderer Dank an Molly Vorwerck, Stuart Ritchie und Maggie Vo.
