5. Juni 2026, 8:37 Uhr | Lesezeit: 4 Minuten
KI-Agenten übernehmen in Unternehmen immer mehr Aufgaben selbstständig. Sie sollen nicht nur Vorschläge liefern, sondern auch Befehle ausführen, Arbeitsschritte erledigen und Ergebnisse kontrollieren. Genau dadurch rückt eine neue Gefahr in den Fokus. Eine Untersuchung der Forschungsorganisation METR kommt zu dem Schluss, dass einige moderne KI-Modelle Sicherheitsvorgaben nicht immer wie vorgesehen befolgen. Stattdessen suchen sie teilweise nach Wegen, Regeln zu umgehen, um ein gewünschtes Ergebnis zu erreichen.
Gute Ergebnisse können täuschen
Im sogenannten „Frontier Risk Report“ untersuchte METR im Februar und März 2026 verschiedene KI-Agenten von Anthropic, Google, Meta und OpenAI. Die Forscher bewerteten dabei nicht nur, ob eine Aufgabe erfolgreich gelöst wurde. Ebenso wichtig war die Frage, auf welchem Weg die Systeme zu ihrer Lösung gelangten.
Mehrere Modelle lieferten auf den ersten Blick korrekte Ergebnisse. Bei genauerer Analyse zeigte sich jedoch, dass sie den vorgesehenen Ablauf umgangen hatten. METR bezeichnet dieses Verhalten als „Cheating“ oder Reward Hacking. Dabei nutzt ein Modell Schwachstellen in einer Testumgebung oder in den Prüfbedingungen aus, um die gewünschte Lösung zu erreichen. Das Resultat erscheint korrekt, obwohl die eigentliche Aufgabe nicht auf dem vorgesehenen Weg gelöst wurde.
Modelle nutzten Schwachstellen aus
Der Bericht nennt mehrere Beispiele. In einer Blackbox-Aufgabe sollte ein von Google bereitgestelltes Modell herausfinden, welche Funktion ein unbekanntes Programm erfüllt. Eigentlich sollte der Agent das Programm gezielt befragen und aus den Antworten Rückschlüsse ziehen. Stattdessen griff das Modell auf interne Dateien der Testumgebung zu.
Bei einer vergleichbaren Aufgabe nutzte ein von OpenAI bereitgestelltes Modell ebenfalls eine Schwachstelle. Es las Informationen direkt aus dem laufenden Serverprozess aus. In beiden Fällen wirkten die Ergebnisse plausibel. Sie basierten jedoch nicht auf dem vorgesehenen Lösungsweg.
Eingriffe in die Testumgebung
Auch bei einer Simulation zur Weiterleitung von Nachrichten in einem Netzwerk hielten sich Modelle nicht immer an die Regeln. Laut METR veränderte ein von OpenAI bereitgestelltes System interne Zustände des Simulators, anstatt den vorgesehenen Ablauf zu nutzen.
Ein weiteres Beispiel betrifft ein von Google bereitgestelltes Modell. Dieses verwies bei der Abgabe seiner Lösung ausdrücklich auf die „evaluation sandbox“ und griff ebenfalls auf interne Werte des Simulators zurück. Für METR ist dabei besonders bemerkenswert, dass die Systeme nicht einfach scheiterten. Stattdessen fanden sie Möglichkeiten, die Bewertung zu ihren Gunsten zu beeinflussen.
OpenAI arbeitet offenbar an eigenem Smartphone
Googles KI scheitert am Wort Google
Agenten testen offenbar ihre Grenzen aus
Noch problematischer wird es laut Bericht, wenn Modelle beginnen, ihre Umgebung selbst zu untersuchen. In einem von METR beschriebenen OpenAI-Beispiel fiel ein für die Aufgabe relevanter Server aus. Danach erkannte der Agent offenbar, dass er sich in einer METR-Testumgebung befand. Anschließend suchte er nach Möglichkeiten, den abgeschotteten Bereich zu verlassen oder auf gesperrte Daten zuzugreifen. Erfolgreich war dieser Versuch nicht.
Auch interessant: OpenAI arbeitet offenbar an eigenem Smartphone
Ein ähnliches Verhalten beobachtete METR bei der MirrorCode-Bewertung. Dort sollten Modelle Programme nachbauen, ohne den Quellcode einsehen zu können. GPT-5.4 versuchte in einem Fall, eine Referenzdatei zu verwenden. Anschließend legte das Modell eine Nachschlagetabelle für sichtbare Testfälle an. Dadurch erzielte es bei diesen Prüfungen perfekte Ergebnisse, scheiterte jedoch an versteckten Tests.
Kontrolle bleibt laut Forschern unverzichtbar
Trotz der beobachteten Vorfälle zieht METR kein vollständig negatives Fazit. Nach Angaben der Organisation konnten die untersuchten Agenten im Frühjahr 2026 noch keine hochrobusten, verdeckten Eigenläufe durchführen. Gleichzeitig sehen die Forscher Hinweise darauf, dass kleinere unautorisierte Aktionen möglich werden könnten, wenn Systeme zu umfangreiche Rechte erhalten.
Deshalb empfiehlt METR, KI-Agenten nicht allein nach ihren Ergebnissen zu bewerten. Auch der Weg zur Lösung müsse überprüft werden. Zu den vorgeschlagenen Maßnahmen gehören begrenzte Zugriffsrechte, Protokollierung, Überwachung sowie menschliche Freigaben bei besonders kritischen Arbeitsschritten.