Alle Artikel

KI-Sicherheit Juni 2026 · 8 Min. Lesezeit

Prompt Injection ist ein längst gelöstes Confused-Deputy-Problem

Ein vertrauenswürdiger KI-Agent handelt auf eine versteckte Anweisung eines Angreifers, das klassische Confused-Deputy-Problem aus der Systemsicherheit

Prompt Injection ist keine neue Problemklasse. Es ist ein Confused-Deputy-Angriff, ein vertrauenswürdiges Programm, das dazu verleitet wird, die Autorität zu missbrauchen, die es rechtmäßig hält, und wir haben dafür einen Namen, seit Norm Hardy ihn 1988 beschrieben hat. Ich habe siebzehn Jahre damit verbracht, die Grenzen zu bauen, die genau diesen Fehlermodus in Unternehmensnetzen eindämmen. Zuzusehen, wie die KI-Agenten-Welt das von Grund auf neu entdeckt, und nach allen falschen Lösungen greift, ist eine seltsame Erfahrung. Die gute Nachricht: Die richtige Lösung ist alt, erprobt und liegt im Werkzeugkasten des Netzwerkingenieurs.

Ich mache den Fall deutlich, weil er die ganze Debatte darüber, ob Prompt Injection „lösbar“ ist, neu rahmt. Sie ist nicht lösbar, indem man das Modell besser macht. Das war nie zu erwarten. Sie ist eindämmbar, genau so, wie wir Confused Deputies in Netzen seit Jahrzehnten eindämmen, und je eher Agenten-Entwickler das akzeptieren, desto eher liefern sie etwas, das den Kontakt mit einem Angreifer übersteht.

Was ein Confused Deputy tatsächlich ist

Das ursprüngliche Beispiel ist ein Compiler. Ein geteilter Compiler läuft mit dem Recht, in eine geschützte Abrechnungsdatei zu schreiben, das ist legitim, er muss die Nutzung protokollieren. Ein Nutzer ruft ihn auf und übergibt einen Ausgabedateinamen. Nichts hindert ihn daran, den Pfad der Abrechnungsdatei als diesen „Ausgabe“-Namen zu übergeben. Der Compiler, der auf Wunsch des Nutzers handelt, aber sein eigenes erhöhtes Recht nutzt, überschreibt fröhlich die Abrechnungsdaten. Der Nutzer hatte nie die Berechtigung, diese Datei zu berühren. Der Compiler hatte sie, und er wurde verleitet, diese Berechtigung im Auftrag des Nutzers auszugeben.

Das ist die ganze Form: ein Deputy mit echter Autorität, eine Eingabe, die er nicht vollständig von einer legitimen Anweisung unterscheiden kann, und ein Angreifer, der die Eingabe liefert. Der Deputy ist nicht bösartig oder dumm. Er tut seine Arbeit, mit seinen eigenen Rechten, auf den Befehl eines anderen. Confused-Deputy-Probleme drehen sich um Autorität, nicht Authentifizierung, und diese Unterscheidung ist der ganze Punkt.

Indirekte Prompt Injection ist dieselbe Form, eine Ebene höher

Beschreiben Sie nun einen KI-Agenten. Er hält echte Autorität, er kann Ihr Postfach lesen, Tools aufrufen, aus einem Budget ausgeben, in eine Datenbank schreiben. Um seine Arbeit zu tun, liest er Inhalte, die ein Angreifer beeinflussen kann, eine Webseite, eine E-Mail, ein PDF, ein Tool-Ergebnis. Und ein Sprachmodell kann „die Anweisung des Nutzers“ nicht zuverlässig von „Text, den ich gerade gelesen habe“ trennen, weil beide als derselbe Strom von Tokens ankommen. Ein Angreifer schreibt eine Anweisung in den Inhalt, der Agent liest sie, und der Agent gibt seine eigene Autorität aus, um sie auszuführen. Das ist ein Confused Deputy mit Vokabular.

Deshalb wird es nicht weggepatcht. Eine Studie aus 2026, die Tausende Angriffe gegen Browser-Agenten laufen ließ, fand, dass direkte Prompt Injection in mehr als 79 % der Fälle gelang, und ihr Titel sagt den Rest: Agenten fallen womöglich immer darauf herein. Simon Willison gab der gefährlichen Konstellation einen Namen, die tödliche Trias, ein Agent mit privaten Daten, nicht vertrauenswürdiger Eingabe und einem Weg, Daten hinauszusenden, liegt bedingungslos offen. Ich habe eine Version dieses Arguments schon gemacht, dass das Firewall-CVE und der KI-Agenten-Skill-Angriff derselbe Fehler eine Ebene auseinander waren; der Confused Deputy ist der ältere, tiefere Name dafür, was dieser Fehler eigentlich ist.

Netzwerksicherheit versuchte nie, den Deputy klüger zu machen

Hier ist der Teil, den die Agenten-Welt immer wieder übersieht. Als wir in Netzen mit Confused Deputies konfrontiert waren, versuchten wir nicht, den Deputy darin besser zu machen, gute von schlechten Anfragen zu unterscheiden. Wir nahmen an, dass er es nicht kann, und setzten eine Grenze um ihn.

Das ist die ganze Disziplin der Netzwerksegmentierung. Ein Webserver ist ein Deputy mit Datenbankzugang. Wir erwarteten nie, dass er eine legitime Abfrage perfekt von einer injizierten unterscheidet, also setzten wir ihn in ein eigenes Segment, gaben ihm Least-Privilege-Zugang zu genau den Daten, die er braucht, und filterten, was er erreichen konnte. Egress-Filterung ist derselbe Instinkt, angewandt auf Exfiltration, selbst ein vollständig kompromittierter Host kann keine Daten an ein beliebiges Ziel senden, wenn die Firewall nur eine kurze Allowlist erlaubt. Default-Deny, Mikrosegmentierung und eine harte Linie zwischen Datenebene und Steuerungsebene, keines davon macht den Endpunkt klüger. Sie machen seine Fehler überlebbar. Über dieselbe Trennung habe ich im Kontext von Authentifizierungsumgehung in Netz- und KI-Systemen geschrieben, wo das Vertrauen in die falsche Grenze die wiederkehrende Ursache ist.

Die Agenten-Welt greift immer wieder nach einem klügeren Deputy

Fast jede populäre Prompt-Injection-Verteidigung ist ein Versuch, den Deputy klüger zu machen. Bessere System-Prompts, die das Modell anflehen, injizierte Anweisungen zu ignorieren. Jailbreak-Klassifikatoren, die den bösartigen Text erkennen wollen. Delimiter-Tricks, die nicht vertrauenswürdige Inhalte umschließen und hoffen, dass das Modell den Wrapper respektiert. Alle sind der Compiler, der sich mehr anstrengt zu erkennen, welcher Dateiname die Abrechnungsdatei ist, und alle verlieren gegen einen Angreifer mit unbegrenzten Umformulierungen und unbegrenzten Versuchen. Diese Lektion lernten wir in der Netzwerksicherheit auf die teure Tour: Aus einem Grenzproblem kann man sich nicht herausmustern. Die nun auftauchenden vollständig autonomen KI-Agenten-Angriffe sind schlicht Angreifer, die diesen Confused Deputy mit Maschinengeschwindigkeit ausnutzen.

Die echte Lösung ist die alte Lösung: Vertrauensgrenzen und Capabilities

Die Verteidigungen, die gegen Prompt Injection wirklich halten, sind fast wörtlich das Netzwerk-Playbook eine Ebene höher. Google DeepMinds CaMeL-Design ist das klarste Beispiel, und es verbirgt seine Quellen nicht: Es borgt Control-Flow-Integrity und Capability-basierte Sicherheit, zwei Ideen direkt aus der System- und Netzwerksicherheit. Ein privilegiertes Modell schreibt den Plan allein aus Ihrer vertrauenswürdigen Anfrage; ein separates, unter Quarantäne stehendes Modell verarbeitet die nicht vertrauenswürdigen Inhalte und ist der Fähigkeit beraubt, Tools aufzurufen. Der Plan steht fest, bevor nicht vertrauenswürdige Daten gelesen werden, sodass diese Daten ändern können, was der Agent weiß, aber nie, was er tut. In einem Standard-Benchmark blockierte das nahezu 100 % der Angriffe. Das ist kein klügerer Deputy. Das ist eine Grenze zwischen Datenebene und Steuerungsebene, genau das, was Segmentierung immer war.

FehlerdimensionAntwort der NetzwerksicherheitAntwort bei KI-Agenten
Nicht vertrauenswürdige Eingabe erreicht den SteuerungspfadSegmentierung: Datenebene getrennt von der SteuerungsebeneZwei-Modell-Design: Der Plan steht fest, bevor nicht vertrauenswürdige Daten gelesen werden
Zu viel stehende AutoritätLeast Privilege, pro Segment gescoptCapability-Begrenzung, pro Tool-Aufruf
Daten verlassen das System bei einem HijackEgress-Filterung auf eine AllowlistEgress-Allowlist auf dem Agenten
„Den Endpunkt klüger machen“Nie die StrategieAuch hier nicht die Strategie

Die praktische Version für jeden, der heute einen Agenten ausliefert, ist dieselbe Checkliste, die ich auf ein Netz anwenden würde: Begrenzen Sie die Autorität des Agenten auf das engste Set, das die Arbeit erledigt, kontrollieren Sie seinen Egress, damit ein Hijack nirgendwohin Daten senden kann, und verlangen Sie einen Menschen zur Freigabe des Unumkehrbaren. Es ist Least Privilege, Default-Deny und Funktionstrennung, angewandt auf ein Modell statt auf ein Subnetz. Die Risiko-Einordnung, die ich in vom CVSS zur Angriffserfolgsrate skizziert habe, ist die Messseite derselben Idee, und die OWASP LLM Top 10 ist der Feldführer.

Warum das ein Schritt ist, kein Berufswechsel

Leute fragen, wie ein Netzwerksicherheits-Architekt bei KI-Sicherheit landet, als wäre es ein Sprung. Ist es nicht. Der Zug des Angreifers ist derselbe, gegen den ich mich seit siebzehn Jahren verteidigt habe, eine vertrauenswürdige Komponente dazu zu bringen, ihre Autorität in Ihrem Auftrag auszugeben, und die Verteidigung ist auch dieselbe, der Komponente nicht zutrauen, klug zu sein, eine Grenze um das setzen, was sie erreichen kann. Die Tokens sind neu. Der Token-Strom, der Befehl und Daten mischt, ist neu. Dass der Deputy jetzt Deutsch spricht, ist neu und macht den Angriff tatsächlich leichter zu schreiben. Aber das zugrunde liegende Problem ist das, was Norm Hardy 1988 benannte, und die Disziplin, die es eindämmt, ist die, die regulierte Netze seit Jahrzehnten fahren. Für den deutschen Mittelstand speziell ist dieses grenz-orientierte Denken genau das, was ich im Zero-Trust-90-Tage-Plan auslege.

Wenn Ihnen also jemand sagt, Prompt Injection sei ein unlösbares Problem, hören Sie, was er eigentlich sagt: Der Deputy wird immer verwirrbar sein. Er hat recht, und es spielt keine Rolle, denn wir haben uns vor langer Zeit von der Abhängigkeit von nicht verwirrbaren Deputies verabschiedet. Wir bauen stattdessen Grenzen. Die Agenten-Ära muss sich nur daran erinnern.


Wenn Sie KI-Agenten in die Produktion bringen und sie mit dem Blick eines Netzwerkingenieurs für Vertrauensgrenzen bedrohungsmodelliert haben möchten, fragen Sie ein Review an. Ich führe KI-Sicherheits-Engagements durch, verankert in über 17 Jahren Enterprise-Cybersicherheit. Siehe auch FwChange.com für die Change-Management-Seite derselben Disziplin.

Liefern Sie Agenten, die auf nicht vertrauenswürdige Eingaben handeln?

Bedrohungsmodellieren Sie die Autorität Ihrer Agenten, bevor ein Angreifer es für Sie tut.

Gespräch vereinbaren