Von CVSS zu ASR: dem KI-Agenten-Risiko eine Zahl geben

Siebzehn Jahre lang habe ich Sicherheitsrisiken in CVSS bewertet. Eine Schwachstelle kam, sie trug eine Zahl, und diese Zahl erledigte die Arbeit: Sie setzte die Patch-Priorität, die SLA und die Zeile im Audit-Bericht. Als KI-Agenten in denselben Netzen zu landen begannen, kamen sie ganz ohne Zahl. Das Risiko war real, aber es war ein Absatz voller Vagheit, und ein Absatz schafft es nie ins Risikoregister. Am 28. Mai 2026 änderte sich das. Anthropic veröffentlichte eine Angriffserfolgsrate für Prompt Injection, und zum ersten Mal bekam KI-Risiko eine CVSS-förmige Zahl, die man tatsächlich steuern kann.

Ich kam von der Netzwerkseite in die KI-Sicherheit: PAN-OS, Check Point, Cisco, Fortinet, OT-Segmentierung, ISO-27001-Audits. Diese Reihenfolge ist der ganze Sinn dieses Beitrags. Die Disziplin, die einen Firewall-Bestand steuerbar macht, ist Risikomessung, und sie überträgt sich direkt auf KI-Agenten, sobald jemand eine Zahl liefert, gegen die man messen kann. Anthropic hat genau das getan.

Was eine Zahl leistet, was eine Sorge nicht leistet

CVSS wird nicht geliebt, aber es ist nützlich, weil es eine vage Angst in eine Triage-Entscheidung verwandelt. Eine 9.3 springt in der Warteschlange nach vorn; eine 4.0 wartet auf das Wartungsfenster. Der Wert gibt einem Security-Team eine verteidigbare Art, seine Reaktion zu ordnen, zu planen und nachzuweisen. Nimmt man ihn weg, bleibt Meinung, und Meinung übersteht weder ein Audit noch eine Budgetsitzung.

KI-Agenten lebten bis vor zwei Wochen genau in dieser meinungsbasierten Welt. Alle waren sich einig, dass Prompt Injection gefährlich ist. Niemand konnte Ihnen sagen, wie gefährlich, für welche Konfiguration, gegen welches Bedrohungsmodell. „Gefährlich“ lässt sich nicht ins Risikoregister setzen, keinem Verantwortlichen zuweisen, mit keiner Behandlungsschwelle versehen. Eine gemessene Angriffserfolgsrate behebt das. Sie ist die Eingabe, die der KI-Risiko-Diskussion gefehlt hat, und sie kommt in einer Form, die das Sicherheitshandwerk bereits zu nutzen weiß.

Was Anthropic tatsächlich veröffentlicht hat

In der System Card zu Claude Opus 4.8 berichtete Anthropic, dass ein browser-nutzender Agent in 31,5 % der Fälle ohne Schutzmaßnahmen durch eine eingeschleuste Anweisung gekapert wurde und in 0,5 % mit aktiven Schutzmaßnahmen. In einer Coding-Werkzeug-Umgebung gegen einen adaptiven Angreifer lagen die Werte bei 7,03 % und 2,09 %. Laut der System Card von Anthropic wurden diese gegen zurückgehaltene Injection-Angriffe gemessen, und bezeichnenderweise veröffentlicht die Karte auch eine Red-Team-Kennzahl, bei der das neue Modell schlechter abschnitt als sein Vorgänger. Ein Anbieter, der seine eigene Verschlechterung druckt, ist ein Anbieter, dessen andere Zahlen man vertrauen kann.

Die konkreten Werte zählen weniger als ihre Existenz. Eine Angriffserfolgsrate existiert jetzt für KI-Agenten, so wie ein CVSS für ein CVE existiert. Prompt Injection steht seit 2023 an der Spitze der OWASP Top 10 für LLM-Anwendungen; was fehlte, war eine Möglichkeit, die eigene Exposition dagegen zu quantifizieren. Jetzt gibt es eine, und sie gehört in dieselbe Risikomanagement-Maschinerie, die Sie bereits betreiben.

CVSS fürs CVE, ASR für den Agenten

Die Zuordnung ist nah genug, um operativ zu sein. Eine Angriffserfolgsrate fügt sich an denselben Stellen in den Risiko-Workflow ein wie ein CVSS, was genau der Grund ist, warum ein Netzwerksicherheits-Hintergrund sie sofort liest.

Im Risiko-Workflow	Firewall-CVE (CVSS)	KI-Agent (Angriffserfolgsrate)
Was die Zahl bewertet	Ausnutzbarkeit und Wirkung eines Fehlers	Anteil der Injection-Versuche, die den Agenten kapern
Woher sie kommt	Hersteller-Advisory, NVD	Hersteller-System-Card oder eigene Evaluierung
Warum sie sich bewegt	Neu bewertet, wenn Ausnutzung gesehen wird	Verschiebt sich mit Schutzmaßnahmen, Werkzeugen, Bedrohungsmodell
Was sie auslöst	Patch-SLA, kompensierende Kontrollen	Schutzmaßnahmen, Least Privilege, ein menschliches Freigabe-Gate
Das Restrisiko	Ungepatchte Exposition, die Sie akzeptieren oder isolieren	Die 0,5 %, die durchkommen, bewertet nach Schadensradius

Ich behaupte nicht, eine Angriffserfolgsrate sei so ausgereift wie CVSS. Ist sie nicht. Es gibt kein gemeinsames Schema, kein NVD-Äquivalent, kein vereinbartes Harness. Aber das hatte CVSS am ersten Tag auch nicht. Der Wert ist nicht Präzision; es ist, dass die Diskussion endlich einen quantitativen Anker hat, und eine grobe Zahl, die Sie verbessern können, schlägt eine perfekte Sorge, die Sie nicht messen können.

Warum die Netzwerk-Denkweise die richtige Linse ist

Der Instinkt, der das nützlich macht, ist kein KI-Instinkt. Es ist die Gewohnheit, von allem im Netz zu fragen: Wie wahrscheinlich wird das missbraucht, und wie weit reicht es, wenn es so weit ist. Das ist die Frage hinter jeder Firewall-Regelprüfung und jeder CVSS-Triage, die ich geführt habe. Ein KI-Agent mit Werkzeugen ist nur ein weiteres erreichbares, privilegiertes Ding im Netz, und dieselben zwei Fragen gelten: Wie ist seine Angriffserfolgsrate, und wie groß ist sein Schadensradius, wenn der Angriff landet.

Das ist der rote Faden meines Wechsels von der Netzwerksicherheit in die KI-Sicherheit. Die Versagen sind nicht neu; die Bewertung schon. Die strukturelle Version dieses Arguments habe ich in warum Firewall-CVE und KI-Agenten-Breach derselbe Fehler sind gemacht, wo die gemeinsame Ursache fehlende Provenienz, fehlendes Least Privilege und fehlende Change-Control war. Dieser Beitrag ist der Mess-Begleiter dazu: Sobald man akzeptiert, dass die Versagen dieselben sind, misst man sie auch gleich. Die Framework-Sicht steht in der OWASP LLM Top 10 für 2026.

Was ich einem Vorstand dieses Quartal sagen würde

Behandeln Sie die Angriffserfolgsrate eines KI-Agenten so, wie Sie bereits einen CVSS behandeln. Setzen Sie jeden Agenten, der handeln kann, mit seiner Zahl und seinem Schadensradius ins Register. Machen Sie eine veröffentlichte Angriffserfolgsrate zur Beschaffungsanforderung, so wie Sie aufgehört haben, Netzwerktechnik von Herstellern zu kaufen, die keine Advisories veröffentlichen. Kann ein Anbieter Ihnen keine Zahl unter Prompt Injection nennen, hat er sie nicht gemessen, und man verteidigt keine Gefährdung, die man nie beziffert hat.

Setzen Sie dann eine Schwelle und eine Behandlung, genau wie für ein CVE. Begrenzen Sie die Werkzeuge und Credentials des Agenten auf die Aufgabe, sperren Sie unumkehrbare Aktionen hinter menschliche Freigabe und verweigern Sie Egress per Default, damit ein erfolgreicher Hijack nichts exfiltrieren kann. Das ist dieselbe Schleife von Risiko-Quantifizierung zu Kontrolle, die ich über Hunderte Firewall-Audits angewandt habe, und die Erkennungsseite beschreibe ich in KI-Bedrohungserkennung für CISOs.

Die Zahl ist der Anfang, nicht das Ende

Ein gemessenes Risiko ist kein gelöstes. Schutzmaßnahmen senkten Anthropics Browser-Rate von 31,5 % auf 0,5 %, eine Reduktion um mehr als das 60-Fache, aber 0,5 % ist nicht null. Lässt man einen Agenten täglich durch Tausende Aktionen laufen, ist dieser Rest ein stetiges Rinnsal erfolgreicher Angriffe, kein Randfall. Die Zahl sagt Ihnen, wo Sie stehen; sie nimmt Ihnen die Arbeit nicht ab. Bewerten Sie die Folge so sorgfältig wie die Wahrscheinlichkeit, denn ein 0,5-%-Hijack, der Geld bewegen kann, ist schlimmer als ein 31,5-%-Hijack, der nur eine Seite zusammenfassen kann.

Die ehrliche Bilanz ist die, die jedes Audit erreicht. Die Disziplin, die Sie schützt, wird vor dem Vorfall aufgebaut, nicht währenddessen. Inventarisieren Sie Ihre Agenten, hängen Sie an jeden eine Zahl, definieren Sie die Behandlung und messen Sie bei jeder Modell- und Prompt-Änderung neu. Nichts davon ist neu. Es ist das Firewall-Drehbuch, neu gezeichnet für eine Oberfläche, die es bei seiner Entstehung nicht gab.

Wenn Sie KI-Agenten ausrollen und nicht beziffern können, wie exponiert sie sind, ist diese Lücke jetzt messbar, statt nach einem Vorfall. Ich führe Projekte, die Enterprise-Risikobewertungs-Disziplin auf KI-Workloads bringen: die Angriffserfolgsrate messen, den Schadensradius bewerten und sie wie jede andere Zeile im Register behandeln. Review anfragen.