Wenn KI Binärcode liest — wie Sprachmodelle die Schwachstellenforschung verändern
KI-Systeme finden systematisch Schwachstellen in kompilierter Software — schneller und breiter als menschliche Experten. Was das für IT-Sicherheit bedeutet.
Im Oktober 2024 hat Googles Sicherheitsteam Project Zero etwas veröffentlicht, das in der Security-Community für Aufsehen gesorgt hat: Ein KI-Agent namens Big Sleep hatte eine bisher unbekannte Schwachstelle in SQLite gefunden — einen Stack Buffer Underflow, der ausnutzbar war. Google nannte es „the first public example of an AI agent finding a previously unknown exploitable memory-safety issue in widely used real-world software".
Das war vor anderthalb Jahren. Seitdem hat sich die Lage deutlich verschärft. Was damals ein einzelner Forschungserfolg war, ist heute ein systematischer Prozess. KI-Systeme finden Sicherheitslücken in Software, die seit Jahrzehnten als gut geprüft gilt — schneller, breiter und tiefer als menschliche Experten es je konnten.
Was sich verändert hat
Softwareanalyse war bis vor kurzem eine Domäne hochspezialisierter Experten. Wer Schwachstellen in kompilierter Software finden wollte — also in Binärdateien ohne Quellcode — brauchte tiefes Wissen in Assembler, Betriebssystem-Interna, Speicherverwaltung und Reverse Engineering. Das sind Fähigkeiten, die man sich über Jahre aneignet. Die Zahl der Menschen weltweit, die das auf hohem Niveau beherrschen, ist überschaubar.
Genau das ändert sich gerade. Große Sprachmodelle können mittlerweile kompilierten Code lesen, Muster darin erkennen und potenzielle Schwachstellen identifizieren. Nicht perfekt. Nicht fehlerfrei. Aber in einer Geschwindigkeit und Breite, die mit manueller Analyse nicht vergleichbar ist.
Die Zahlen
Ein paar konkrete Datenpunkte, die das greifbar machen.
Google OSS-Fuzz setzt seit 2023 KI-generierte Fuzz-Targets ein. Ergebnis: 26 neue Schwachstellen in Projekten, die bereits hunderttausende Stunden konventionelles Fuzzing hinter sich hatten. Die bemerkenswerteste davon: CVE-2024-9143 in OpenSSL — ein Out-of-Bounds Read/Write, der nach Einschätzung der Forscher seit rund 20 Jahren im Code existierte und mit menschlich geschriebenen Fuzz-Targets nicht auffindbar gewesen wäre. Die KI-generierten Targets verbesserten die Code-Abdeckung in 272 C/C++-Projekten um über 370.000 Zeilen.
AISLE, ein KI-gestütztes Security-Forschungssystem, hat im Herbst und Winter 2025 zwölf Zero-Day-Schwachstellen in OpenSSL entdeckt, die im Januar 2026 gepatcht wurden. Drei davon existierten seit 1998 bis 2000 — über 25 Jahre unentdeckt, trotz Millionen CPU-Stunden an Fuzzing und umfangreichen Audits durch Teams wie Googles eigene Sicherheitsforscher. Eine der Schwachstellen, CVE-2025-15467, ein Stack Buffer Overflow in der CMS-Nachrichtenverarbeitung, wurde von NIST mit CVSS 9.8 als kritisch eingestuft. In fünf der zwölf Fälle hat das KI-System direkt Patches vorgeschlagen, die akzeptiert wurden.
DARPA AIxCC: Beim AI Cyber Challenge Finale im August 2025 auf der DEF CON haben sieben Finalisten-Teams 54 Millionen Zeilen Code analysiert. Die Systeme erkannten 86 Prozent der eingesetzten synthetischen Schwachstellen und konnten 68 Prozent davon automatisch patchen. Dabei wurden 18 zuvor unbekannte reale Schwachstellen gefunden.
Und die Gesamtentwicklung: Die Zahl der durch KI entdeckten CVEs stieg von etwa 300 im Jahr 2023 auf über 450 im Jahr 2024 und über 1.000 im Jahr 2025. Das ist ein Anstieg von rund 70 Prozent pro Jahr.
Warum Binäranalyse der entscheidende Punkt ist
Quellcode-Analyse ist eine Sache. Aber der eigentliche Wendepunkt liegt bei der Analyse von Binärdateien — also kompilierter Software, bei der kein Quellcode verfügbar ist.
Ein großer Teil der weltweit eingesetzten kritischen Infrastruktur läuft auf Software, die in C oder C++ geschrieben wurde. Betriebssysteme, Netzwerk-Stacks, industrielle Steuerungssysteme, eingebettete Firmware. Rund 70 Prozent aller Sicherheitslücken in Software gehen auf Memory-Safety-Probleme zurück — Buffer Overflows, Use-After-Free, Integer Overflows. Genau die Art von Fehlern, die in C/C++-Code systemisch auftreten.
Viel von dieser Software wurde nie umfassend auf Sicherheitslücken geprüft. Nicht weil es niemanden interessiert, sondern weil die manuelle Analyse von Binärcode extrem aufwendig ist. Ein erfahrener Reverse Engineer braucht Tage bis Wochen, um eine einzelne Komponente gründlich zu analysieren. Das skaliert nicht.
KI verändert diese Gleichung fundamental. Tools wie LLM4Decompile übersetzen x86-Binaries zurück in lesbaren C-Code. Frameworks wie GhidrAssist verbinden den Disassembler Ghidra mit Sprachmodellen, die den dekompilierten Code analysieren, Variablen benennen und Schwachstellen-Muster erkennen können. Das LATTE-Framework führt automatisierte Taint-Analyse auf Firmware durch und hat dabei 37 unbekannte Bugs gefunden, von denen zehn CVE-Nummern erhalten haben.
Was vorher Wochen dauerte, läuft jetzt in Stunden. Was vorher tiefes Expertenwissen erforderte, wird durch KI-Assistenz auch für weniger spezialisierte Analysten zugänglich.
Das Dual-Use-Problem
Und hier wird es ernst. Denn dieselben Fähigkeiten, die Verteidigern helfen, helfen auch Angreifern.
Bruce Schneier hat das im Oktober 2025 auf den Punkt gebracht: KI-Agenten hacken mittlerweile „at computer speeds and scale". Was vorher seltenes Expertenwissen war, wird zur Commodity. Die Fähigkeit, systematisch Schwachstellen in Software zu finden und Exploits zu generieren, ist nicht mehr an jahrelange Erfahrung gebunden.
Das ist keine theoretische Überlegung. Im Juli 2025 wurde HexStrike-AI veröffentlicht, ein Open-Source-Tool, das über 150 Security-Tools mit Sprachmodellen verbindet. Innerhalb von zwölf Stunden nach Veröffentlichung wurde es im Dark Web diskutiert und gegen eine Citrix-NetScaler-Schwachstelle eingesetzt. Die Zeitspanne zwischen der Veröffentlichung einer Schwachstelle und dem ersten Exploit schrumpft. Schneier spricht davon, dass die bisher angenommene Reaktionszeit zum Patchen nicht mehr existiert.
Gleichzeitig nutzen die großen Tech-Unternehmen dieselbe Technologie defensiv. Google setzt KI-gestütztes Fuzzing in OSS-Fuzz ein, Gemini generiert automatisch Patches für Sanitizer-Bugs. Meta hat mit AutoPatchBench einen Benchmark für KI-generierte Sicherheitspatches veröffentlicht. Die sieben Finalisten-Teams der DARPA AIxCC haben ihre Systeme als Open Source freigegeben.
Es ist ein Wettrennen. Und die entscheidende Frage ist, wer schneller ist — Angreifer oder Verteidiger.
Was das für die Zukunft bedeutet
Aus meiner Sicht gibt es drei Entwicklungen, die wir im Blick behalten sollten.
Erstens: Die Skalierung. Bisher war Schwachstellenforschung handwerkliche Arbeit. KI macht daraus einen industriellen Prozess. Wenn ein System wie AISLE zwölf Zero-Days in OpenSSL findet — einer der am besten geprüften Codebases der Welt —, dann ist die Frage nicht ob, sondern wie viele Schwachstellen in weniger geprüfter Software noch schlummern.
Zweitens: Die Demokratisierung. Die Einstiegshürde für offensive Security sinkt. Das betrifft nicht nur staatliche Akteure, sondern potenziell jeden mit Zugang zu einem leistungsfähigen Sprachmodell und den richtigen Werkzeugen. Die Asymmetrie zwischen Angreifer und Verteidiger verschiebt sich.
Drittens: Die Geschwindigkeit. KI-gestützte Exploit-Entwicklung komprimiert Zeiträume, die bisher in Tagen oder Wochen gemessen wurden, auf Stunden oder Minuten. Die Annahme, dass man nach Bekanntwerden einer Schwachstelle genug Zeit zum Patchen hat, wird zunehmend fragwürdig.
Fazit
Die Fähigkeit von KI-Systemen, systematisch Schwachstellen in kompilierter Software zu finden, ist keine Zukunftsvision. Es passiert jetzt. Schwachstellen, die 20 oder 25 Jahre in produktiver Software überlebt haben, werden in Wochen gefunden. Codebases, die Millionen Stunden manuelles und automatisiertes Testing hinter sich haben, geben unter KI-Analyse neue Lücken preis.
Das ist gleichzeitig eine der wichtigsten Entwicklungen für die IT-Sicherheit und eines der größten Risiken. Die Technologie ist dual-use im reinsten Sinne: Dieselben Modelle, die Verteidigern helfen, Systeme zu härten, können Angreifern helfen, sie aufzubrechen.
Die entscheidende Frage ist nicht mehr, ob KI Schwachstellen finden kann. Sondern ob wir schnell genug sind, die Lücken zu schließen, bevor jemand anderes sie ausnutzt.