Wdrożenie systemu wielomodelowego opartego na siłowej sztucznej inteligencji pozwoliło Microsoftowi zidentyfikować 18 wcześniej nieznanych luk w komponentach sieciowych i podsystemach uwierzytelniania Windows, w tym krytyczne defekty prowadzące do zdalnego wykonania kodu.
Firma Microsoft zaprezentowała technologię MDASH (Multi-Model Agentic Scanning Harness), przeznaczoną do zautomatyzowanego wyszukiwania defektów bezpieczeństwa w kodzie źródłowym. W przeciwieństwie do tradycyjnych analizatorów statycznych i dynamicznych, MDASH to rozproszony kompleks obejmujący ponad 100 wyspecjalizowanych agentów SI. Każdy agent pełni ściśle określoną rolę: niektórzy odpowiadają za identyfikację podejrzanych wzorców, inni za statyczną i dynamiczną weryfikację hipotez, jeszcze inni za automatyczne odtwarzanie scenariuszy wykorzystania, a czwarti za ostateczną klasyfikację wykrytych anomalii jako potwierdzonych luk.
W ramach testów wewnętrznych systemowi przedstawiono zestaw 21 sztucznie wszczepionych luk – MDASH wykazał 100% pokrycia. Podczas retrospektywnej analizy danych MSRC (Microsoft Security Response Center) dotyczących podsystemów sieciowych Windows, dokładność zgodności osiągnęła 96%. Na publicznym benchmarku CyberGym wynik wyniósł około 88% udanych rozwiązań, co według twórców odpowiada pozycjom lidera wśród zautomatyzowanych systemów wyszukiwania luk. Koszt licencjonowania dla zewnętrznych klientów nie jest ujawniany, wiadomo jednak, że technologia jest już stosowana wewnętrznie w Microsoft na etapach przedpremierowej weryfikacji i walidacji poprawek.
Technologicznie MDASH działa jako potok kolejnych etapów. Na wejściu podawane jest abstrakcyjne drzewo składniowe lub pośrednia reprezentacja kodu. Pierwsza klasa agentów (detektory) na podstawie wytrenowanych modeli (w tym ciężkich transformerów z długim kontekstem) generuje hipotezy o możliwych błędach – na przykład użyciu niezainicjowanej pamięci lub braku sprawdzania granic w stosach sieciowych. Następnie do akcji wkraczają agenci weryfikujący (oparci na lekkich modelach), którzy wykonują ograniczoną symboliczną egzekucję i statyczną analizę przepływu danych. Potem agenci wykorzystujący dynamicznie instrumentują kod w izolowanym środowisku, próbując wywołać docelową anomalię (na przykład awarię lub niekontrolowane przepełnienie bufora). Wreszcie agenci filtrujący, oparci na modelach ze wzmacnianiem, podejmują decyzję o fałszywym alarmie lub rzeczywistej luce, tworząc raport z wektorem ataku.
Z analitycznego punktu widzenia MDASH jest interesująca nie tyle liczbą znalezionych luk, co zmianą architektoniczną: analiza statyczna i fuzzing działają tutaj jedynie jako dostawcy podejrzeń, podczas gdy główna logika weryfikacji i wykorzystania jest delegowana do wyspecjalizowanych agentów. Pozwala to zbliżyć się do półautonomicznej inżynierii wstecznej luk, gdzie SI nie tylko znajduje defekt, ale także częściowo dowodzi jego żywotności. Jednak ważnym ograniczeniem pozostaje koszt obliczeniowy: jednoczesne uruchomienie ponad 100 agentów na skalę całej bazy kodu Windows wymaga klastrów z akceleracją GPU, co na razie nie jest dostępne dla większości zewnętrznych organizacji bez odpowiedniej infrastruktury.