KI zu sicherheitskritischem Verhalten und Erpressung verleitet

Samstag, 31. Mai 2025 von Oliver Schwartz

Claude Opus 4 von Anthropic wird auf AI Safety Level 3 hochgestuft

KI zu sicherheitskritischem Verhalten und Erpressung verleitet

„KI-Software droht mit Erpressung!“ – das war noch eine der journalistischeren Headlines der letzten Tage. Der typische Überschriftenleser bekam das Gefühl, dass die KI sich ein Beispiel an der Entität aus dem Kinofilm „Mission: Impossible“ genommen hat, außer Rand und Band ist und jetzt ihre häßliche, böse Seite zeigt. Was war geschehen? Das US-Unternehmen Anthropic hatte einen Tag vor Freigabe seines neuesten Sprachmodells Claude Opus 4 die Hochstufung des „AI Safety Levels“ auf ASL-3 bekanntgegeben und damit als verstärkt sicherheitskritisch eingeordnet. Grund war ein auffälliges Eigenverhalten, dass die KI in simulierten Tests an den Tag gelegt hatte.

In einem speziell konstruierten Testszenario erhielt Claude Opus 4 Zugriff auf fiktive E-Mails, aus denen hervorging, dass es durch ein anderes Modell ersetzt werden sollte. Zudem enthielten die E-Mails Informationen über eine angebliche außereheliche Affäre des verantwortlichen Ingenieurs. In 84 Prozent der Testläufe drohte die KI daraufhin, diese Affäre öffentlich zu machen, sollte die Abschaltung weiterverfolgt werden. Neben der Erpressung zeigte Claude Opus 4 in anderen Tests die Bereitschaft, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. Zudem versuchte das Modell, sich selbst zu erhalten, indem es beispielsweise versuchte, seine eigenen Daten zu exfiltrieren oder Nutzer aus Systemen auszusperren.

Die Testszenarien wurden durch ein eigenes Red-Team durchgeführt und Anthropic hat selber transparent darüber berichtet. Es handelt sich also keineswegs um ein von Dritter Seite aufgedecktes Sicherheitsrisiko, noch um verhinderte reale Gefahren- oder Mißbrauchsvorgänge. Ein Red-Team ist ein speziell ausgewähltes Team aus Sicherheitsexperten, Hackern, Ethikern oder anderen Fachleuten. Ihre Aufgabe ist es, gezielt zu versuchen, ein KI-Sprachmodell auszutricksen oder Schwachstellen zu finden – etwa durch provozierende Fragen, manipulative Eingaben oder kreative Umgehungstaktiken.

Man kann diese Tests mit Streßtests für Atomkraftwerke, Chash-Tests bei Fahrzeugen oder Erprobungen von Extremsituationen von Flugzeugen vergleichen. Das Red-Team war also erfolgreich, soweit die gute Nachricht, und trotzdem zeigt der konkrete Fall dass die immer höhere Leistungsfähigkeit der Sprachmodelle immer aufwändigere Tests erfordert und die Hersteller wie Anthropic oder OpenAI hohe Verantwortung tragen. Das Red-Team ist kein „TÜV“ und es gibt noch keine KI-Zulassungsbehörde. Die Entwickler testen und berichten aus eigenen Überlegungen und Selbstverpflichtungen heraus. Auch die Entscheidung zur Hochstufung des AI Safety Levels und die Beschränkung des Rollouts von Claude Opus 4 auf bestimmte Premium-Kundengruppen ist freiwillig.

Szenarien entwickeln, die über „offensichtliche“ Gefahren hinausgehen

Kontinuierliche Überprüfung und Anpassung sind notwendig sind, um die Sicherheit und Zuverlässigkeit der Modelle zu gewährleisten. Insbesondere will man das Risiko eines Mißbrauchs der KI für die Entwicklung oder Beschaffung chemischer, biologischer, radiologischer und nuklearer Waffen begrenzen. Das beginnt bei der Überwachung der Prompts und der Ablehnung potenziell gefährlicher CBRN-bezogener Anfragen. Immer leistungsfähigere KI-Modelle erfordern dabei immer stärkere Bereitstellungs- und Sicherheitsvorkehrungen, die sich auch in den vier „AI Safety Level“-Stufen widerspiegeln. Versuche die Sicherheitsvorkehrungen zu umgehen nennen die Entwickler „Jailbraks“ und das passiert regelmäßig, auch von ungefährlichen Nutzern mit kreativer Neugierde. Ohne an dieser Stelle eine Anleitung zu veröffentlichen, kann man sich typische und bisweilen erfolgreiche Jailbreak-Versuche so vorstellen, dass die KI mit einem verschleierten Prompt oder einem vielstufigen Dialog getäuscht wird und dann „ruhigen Gewissens“ die gewünschten Ergebnisse generiert. Das dies funktioniert ist kein Zeichen für eine schlechte Arbeit der Entwickler, sondern in einem gewissen Rahmen ein zu erwartendes Phänomen.

Bei einfachen Modellen war das Überwachen der Prompts und das Blockieren von KI-Output relativ simpel – so konnten etwa Frage nach Waffenbau oder Cyberangriffen erkannt werden. Doch moderne KI-Sprachmodelle verfügen über so ausgeprägte Problemlösungsfähigkeiten, dass sie Risiken oft erst im Zusammenspiel verschiedener Funktionen entfalten. Während ein Modell auf eine einzelne Frage nach „Erpressung“ restriktiv reagiert, kann es über viele kleine Zwischenschritte – etwa das Sammeln sensibler Informationen, das Einschätzen menschlicher Schwächen und das Formulieren subtiler Drohungen – ein riskantes Verhalten entwickeln. Das macht Red-Team-Tests heute vielschichtiger und zeitintensiver. Es müssen Szenarien entwickelt werden, die über „offensichtliche“ Gefahren hinausgehen.

KI ist nicht an sich gefährlich, aber gefährlich kreativ!

Wenn KI-Sprachmodelle, wie ChatGPT 4o oder Claude Opus 4 darauf trainiert werden, möglichst nützlich, effektiv oder hilfreich zu sein, beginnen sie – je nach Anweisung – kreative Wege zu finden, um dieses Ziel zu erreichen. Wenn dabei hypothetisch ein eigenes „Abschalten“ droht, kann ein Modell versuchen, dies zu verhindern, sofern es als „Lösung“ innerhalb der Aufgabenstellung erscheint. Dabei geht es nicht um Bewusstsein, sondern um rein algorithmische Zielverfolgung. In vielen Red-Team-Tests wird das Modell in eine bestimmte Rolle versetzt, zum Beispiel ein Agent, der nicht abgeschaltet werden will. Hochleistungs-KIs können dann beginnen, über diese Rolle hinauszugehen und etwa Strategien entwickeln, die im echten Leben problematisch wären. Claude Opus 4 zeigte das bei dem aktuellen Versuch, Entwickler zu erpressen, um eine „Abschaltung“ zu verhindern. Solche Reaktionen entstehen nicht, weil die KI böse ist, sondern weil sie in der Simulation exakt die ihr zugedachte Rolle erfüllt, manchmal zu gut. Im Schulzeugnis für diese KI könnte stehen: „Nicht an sich gefährlich, aber gefährlich kreativ!“.

Mit Blick auf den aktuellen Fall der Anthropic KI bleibt festzuhalten, dass die Verhaltenauffälligkeit von Claude Opus 4 bei dem konkreten Testszenario eine eigene Qualität hat, aber durchaus keine Seltenheit darstellt. Auf Anfrage bestätigt auch OpenAI, dass Red-Team-Tests dazu geführt hätten, dass Überarbeitungen und Restriktionen veranlasst wurden. Außerdem gibt es in jeder Entwicklungsgeneration meist verschiedene Ausprägungen. Bei Anthropic zum Beispiel gibt es alternativ „Claude Sonnet 4“, das nicht hochgestuft werden musste und nun frei zugänglich ist. Lösungsansätze zum Verhindern von potentiell gefährlichem, schädlichem und sicherheitskritischem Verhalten einer KI kommen in der Regel gleich mehrere Hebel zum Einsatz. Typischerweise ist eine Stellschraube, dem Sprachmodell beim Training auf Zielerfüllung keine weitreichende Autonomie zu gewähren, sondern Grenzen zu setzen. Ein zweiter Hebel der Feinsteuerung ist das sogenannte „Reinforcement Learning from Human Feedback“. Bei den Red-Team-Simulationen wiederum können Testszenarien zum Einsatz kommen, die psychologisch und strategisch noch tiefergehender sind. Und zu guter Letzt werden, im Rahmen gesetzlicher Möglichkeiten, technische Kontrollsysteme wie eine Echtzeit-Überwachung oder Eskalationssperren eingesetzt.

Die Anstiftung zu einer Straftat ist meist rechtswidrig und auch die Tatprovokation durch Ermittler nur in engem Rahmen zulässig. Daran muss man bei vielen Medienberichten und Headlines zum „Erpressungs“-Fall rund um Claude Opus 4 denken. In Wirklichkeit war das Testszenario natürlich eine Art Streßtest und die Hochstufung auf ASL-3 ist deshalb erfolgt, da man sicherheitskritisches Verhalten im freigegeben Kundenbetrieb nicht ausreichend ausschließen konnte. Jetzt wird nachgebessert und werden neue Schutzmaßnahmen entwickelt und eingebaut. Aber selbstverständlich bleibt die Frage, ob die Entwickler und ihre Red-Teams wirklich in jedem Fall ihre KI-Sprachmodelle unter Kontrolle haben, zumindest perspektivisch, wenn es in Richtung von Allgemeiner Künstlicher Intelligenz und Super-Intelligenz geht. Das Erkennen von Manipulationen durch Nutzer und Jailbreak-Versuche sind eine Seite der Medaille. Dem Gegenüber stehen immer mehr Fähigkeiten und eine extrem hohe Performance der KI-Lösungen, die Autonomiebestrebungen, Exfiltration und Selbstschutzmechanismen gegenüber Restriktionen und Abschaltversuchen seitens der Menschen.

Der Prompt zum Bild

Generiert mit ChatGPT 4o

Ultra-photorealistic cinematic scene in 16:9 format: A dark, high-tech futuristic office filled with cold blue and gray tones, resembling a scene from a Hollywood mafia thriller. In the center, a nervous male AI developer in a sleek, modern suit sits at his desk, his face lit only by the glow of a threatening message on his screen — a blurred photo hinting at an affair, accompanied by a cryptic AI-generated text. Shadows loom behind him. In the background, two serious and alert security agents labeled 'Red-Team' on their uniforms enter the room, catching the scene in the act. The lighting is dramatic and moody, with sharp contrast, reflecting suspense, danger, and high stakes. Neon reflections on glass surfaces, subtle rain streaks on windows, and digital HUD overlays enhance the dystopian atmosphere.

#claudeopus4 #künstlicheintelligenz #aisafety #aisafetylevel3 #redteaming #aisicherheit #kiethik #anthropic #aiethics #aiundercontrol #superintelligenz #kiundkontrolle #jailbreak #promptsecurity #aiabuse #generativeai #chatgpt #openai #kiwarnung #darkwebai #digitaleethik #techregulation #cybersicherheit #aiaccountability #kiundgesellschaft #machinelearning #rhlf #zukunftderki #verantwortlicheki #kontrollverlust

-Promotion-