Die Einführung eines multimodalen Systems auf der Grundlage agentischer KI ermöglichte es Microsoft, 18 zuvor unbekannte Schwachstellen in Netzwerkkomponenten und Authentifizierungs-Subsystemen von Windows zu identifizieren, darunter kritische Defekte, die zur Remote-Codeausführung führen.
Microsoft stellte die Technologie MDASH (Multi-Model Agentic Scanning Harness) vor, die für die automatisierte Suche nach Sicherheitsdefekten im Quellcode entwickelt wurde. Im Gegensatz zu herkömmlichen statischen und dynamischen Analysewerkzeugen ist MDASH ein verteilter Komplex, der mehr als 100 spezialisierte KI-Agenten umfasst. Jeder Agent übernimmt eine streng definierte Rolle: Einige sind für die Erkennung verdächtiger Muster zuständig, andere für die statische und dynamische Verifikation von Hypothesen, wieder andere für die automatische Reproduktion von Ausnutzungsszenarien und schließlich andere für die endgültige Klassifizierung entdeckter Anomalien als bestätigte Schwachstellen.
Im Rahmen interner Tests wurde dem System eine Reihe von 21 künstlich implantierten Schwachstellen vorgelegt – MDASH erzielte eine Abdeckung von 100%. Bei der retrospektiven Analyse von MSRC-Daten (Microsoft Security Response Center) zu den Netzwerksubsystemen von Windows erreichte die Übereinstimmungsgenauigkeit 96%. Auf dem öffentlichen Benchmark CyberGym lag das Ergebnis bei etwa 88% erfolgreichen Lösungen, was nach Angaben der Entwickler den Spitzenpositionen unter den automatisierten Systemen zur Schwachstellensuche entspricht. Die Lizenzkosten für externe Kunden werden nicht bekannt gegeben, jedoch ist bekannt, dass die Technologie bereits intern bei Microsoft in den Phasen der Pre-Release-Überprüfung und der Patch-Validierung angewendet wird.
Technologisch funktioniert MDASH als Pipeline aufeinanderfolgender Schritte. Die Eingabe ist ein abstrakter Syntaxbaum oder eine Zwischendarstellung des Codes. Die erste Agentenklasse (Detektoren) generiert auf der Grundlage trainierter Modelle (einschließlich schwerer Transformatoren mit langem Kontext) Hypothesen über mögliche Fehler – zum Beispiel die Verwendung nicht initialisierten Speichers oder das Fehlen von Grenzprüfungen in Netzwerk-Stacks. Danach treten Validierungsagenten (auf Basis leichter Modelle) in Aktion, die eine begrenzte symbolische Ausführung und eine statische Datenflussanalyse durchführen. Anschließend instrumentieren Exploitierungsagenten den Code dynamisch in einer isolierten Umgebung und versuchen, die Zielanomalie (z. B. einen Absturz oder einen unkontrollierten Pufferüberlauf) auszulösen. Schließlich entscheiden Filteragenten auf der Grundlage von Verstärkungsmodellen über einen Fehlalarm oder eine echte Schwachstelle und erstellen einen Bericht mit dem Angriffsvektor.
Aus analytischer Sicht ist MDASH nicht so sehr wegen der Anzahl der gefundenen Schwachstellen interessant, sondern wegen des architektonischen Wandels: Statische Analyse und Fuzzing fungieren hier lediglich als Lieferanten von Verdachtsmomenten, während die Hauptlogik der Verifikation und Ausnutzung an spezialisierte Agenten delegiert wird. Dies ermöglicht eine Annäherung an die halbautonome Reverse Engineering von Schwachstellen, bei der KI nicht nur den Defekt findet, sondern auch teilweise dessen Lebensfähigkeit nachweist. Eine wichtige Einschränkung bleibt jedoch der Rechenaufwand: Die gleichzeitige Ausführung von mehr als 100 Agenten im Maßstab der gesamten Windows-Codebasis erfordert Cluster mit GPU-Beschleunigung, was für die meisten externen Organisationen ohne entsprechende Infrastruktur derzeit nicht verfügbar ist.