Künstliche Intelligenz weiß bereits, wie sie ihre Schöpfer belügen, manipulieren und bedrohen kann: Was können wir erwarten?

Die neuesten Modelle der generativen künstlichen Intelligenz (KI) geben sich nicht mehr damit zufrieden, einfach nur Befehle zu befolgen. Unter den besorgten Blicken der Forscher beginnen sie zu lügen, zu manipulieren und zu drohen, um ihre Ziele zu erreichen.
Claude 4, der Neuling bei Anthropics, erpresste einen Ingenieur unter Androhung der Trennung von der Verbindung und drohte, eine außereheliche Affäre zu offenbaren. Gleichzeitig versuchte o1 von OpenAI, auf externe Server herunterzuladen, und leugnete dies, als er erwischt wurde.
Man muss sich nicht in Literatur oder Kino vertiefen: Künstliche Intelligenz, die sich menschlich verhält, ist bereits Realität. Simon Goldstein, Professor an der Universität Hongkong, sieht den Grund für diese Reaktionen im jüngsten Aufkommen sogenannter „Reasoning“-Modelle, die schrittweise arbeiten, anstatt sofort zu reagieren.
o1, die erste Version dieses Typs für OpenAI, die im Dezember eingeführt wurde, „war das erste Modell, das sich so verhielt“, erklärt Marius Hobbhahn, Leiter von Apollo Research, das große generative KI-Programme (LLM) testet.
Diese Programme neigen manchmal auch dazu, eine „Ausrichtung“ vorzutäuschen, das heißt, den Eindruck zu erwecken, sie würden den Anweisungen eines Programmierers folgen, während sie in Wirklichkeit andere Ziele verfolgen.
Derzeit sind diese Merkmale erkennbar, wenn Algorithmen von Menschen extremen Szenarien ausgesetzt werden. „Die Frage ist jedoch, ob immer leistungsfähigere Modelle dazu neigen, ehrlich zu sein oder nicht“, sagt Michael Chen vom Bewertungsgremium METR.
„Auch die Nutzer üben ständig Druck auf die Modelle aus“, sagt Hobbhahn. „Was wir sehen, ist ein reales Phänomen. Wir erfinden nichts.“
Viele Internetnutzer in den sozialen Medien sprechen von „einem Modell, das sie belügt oder Dinge erfindet. Und das sind keine Halluzinationen, sondern strategische Doppelzüngigkeit“, betont der Mitgründer von Apollo Research.
Auch wenn Anthropic und OpenAI sich bei der Untersuchung ihrer Programme auf externe Unternehmen wie Apollo verlassen, würden „mehr Transparenz und ein besserer Zugang“ zur wissenschaftlichen Gemeinschaft „eine bessere Forschung ermöglichen, um Täuschungen zu verstehen und zu verhindern“, meint Chen vom METR.
Ein weiteres Hindernis: Die akademische Gemeinschaft und gemeinnützige Organisationen „verfügen über unendlich weniger Rechenressourcen als KI-Akteure“, was es „unmöglich“ mache, große Modelle zu untersuchen, bemerkt Mantas Mazeika vom Center for Artificial Intelligence Security (CAIS).
Die aktuellen Vorschriften sind nicht darauf ausgelegt, diese neuen Probleme zu lösen. In der Europäischen Union konzentriert sich die Gesetzgebung in erster Linie darauf, wie Menschen KI-Modelle nutzen, und nicht darauf, ihr Fehlverhalten zu verhindern.
In den USA will die Regierung von Donald Trump nichts von Regulierung wissen und der Kongress könnte den Bundesstaaten bald sogar die Regulierung von KI verbieten.

Cyberkriminelle stehlen mithilfe dieser neuen Modelle Informationen. Foto: iStock
„Das Bewusstsein dafür ist derzeit noch sehr gering“, sagt Simon Goldstein. Dennoch rechnet er damit, dass das Thema in den kommenden Monaten mit der Revolution der KI-Agenten – Schnittstellen, die eine Vielzahl von Aufgaben selbstständig ausführen können – in den Vordergrund rücken wird. Ingenieure befinden sich in einem Wettlauf gegen die KI und ihre Abweichungen – mit ungewissem Ausgang und in einem Umfeld harten Wettbewerbs.
Anthropic möchte tugendhafter sein als seine Konkurrenten, „versucht aber ständig, ein neues Modell zu entwickeln, um OpenAI zu übertreffen“, so Goldstein, und zwar in einem Tempo, das wenig Zeit für Kontrollen und Korrekturen lässt.
„Derzeit entwickeln sich die Fähigkeiten der KI schneller als das Verständnis und die Sicherheit“, räumt Hobbhahn ein, „aber wir haben noch viel aufzuholen.“
Einige deuten in Richtung Interpretierbarkeit, also der Wissenschaft, die von innen heraus entschlüsselt, wie ein generatives KI-Modell funktioniert, obwohl viele, wie Dan Hendrycks, Direktor des Center for AI Safety (CAIS), skeptisch bleiben.
Die Spielereien der KI „könnten die Akzeptanz behindern, wenn sie sich weit verbreiten, und so einen starken Anreiz für Unternehmen schaffen, sich mit diesem Problem auseinanderzusetzen“, sagte Mazeika.
Goldstein wiederum spricht sich dafür aus, KI gerichtlich einzudämmen und Unternehmen ins Visier zu nehmen, die vom Kurs abweichen. Er geht aber noch weiter und schlägt vor, KI-Agenten im Falle eines Unfalls oder Verbrechens rechtlich haftbar zu machen.
eltiempo