OpenAI plant Kontrollmethoden für "Superintelligenz"

OpenAI will zwanzig Prozent seiner Rechenkapazität darauf verwenden, Methoden zu entwickeln, um eine "Superintelligenz" zu kontrollieren.

In Pocket speichern vorlesen Druckansicht 10 Kommentare lesen
Hand,Of,Businessman,On,Dark,Background,Holding,Lifebuoy

(Bild: Sergey Nivens/Shutterstock.com)

Lesezeit: 4 Min.

Ein neu gegründetes OpenAI-Team unter der Leitung von Ilya Sutskever und Jan Leike soll Methoden entwickeln, eine "Superintelligenz" zu kontrollieren, deren Ziele nicht mit menschlichen Werten übereinstimmt. Weil solch eine Superintelligenz nach Einschätzung des Unternehmens bereits 2030 realisiert werden könnte, will OpenAI die notwendigen Kontrollmechanismen bereits in den nächsten vier Jahren entwickeln, schreibt das Unternehmen in einem Blog-Beitrag.

Das ehrgeizige Ziel des neuen Teams ist, "den ersten automatischen Alignment-Forscher‟ mit Fähigkeiten auf menschlichem Niveau zu schaffen – also eine KI, die Methoden entwickelt, mit denen man KIs kontrollieren kann. Die Arbeit des neuen Teams soll laufende OpenAI-Projekte ergänzen, die darauf abzielen, die Sicherheit aktueller Modelle zu verbessern. Dafür will das Unternehmen auch neue Leute anheuern.

Kritiker werfen OpenAI bereits seit langem vor, mit diesem und ähnlichen Projekten eine Art "Katastrophen-PR" zu betreiben, die die Gefährlichkeit generativer KI übertreibt, um die Bedeutung der eigenen Arbeit zu überhöhen. Zudem beruht das Szenario auf der These einer "existentiellen Bedrohung‟ der Menschheit durch AGI (Artificial General Intelligence). Die eng mit dem so genannten Effektiven Altruismus verknüpfte Idee ist unter jungen Silicon-Valley-Investoren zwar recht beliebt, enthält aber ziemlich fragwürdige Ideen, wie zum Beispiel die Einschätzung, dass der Klimawandel keine existentielle Bedrohung darstellt, wohl aber eine außer Kontrolle geratene "Superintelligenz‟. Wie umstritten das gesamte Thema ist, zeigt eine Übersicht der Positionen bekannter KI-Forscherinnen und Forscher, die IEEE Spectrum zusammengestellt hat.

Unabhängig von der Frage, wie wahrscheinlich die Entwicklung einer "übermenschlichen" künstlichen Intelligenz überhaupt ist, und ob diese dann "egoistische", eigene Ziele verfolgt (und Menschen feindlich gesinnt ist), dürfte das Vorhaben für OpenAI ganz praktischen Nutzen haben. Denn alle Betreiber großer Sprachmodelle – nicht nur OpenAI – kämpfen mit dem Problem, toxischer Outputs. Als Standard-Methode mit der Sprachmodelle dazu gebracht werden, nicht zu fluchen, zu hetzen und schwierige Themen zu vermeiden, hat sich das Verstärkungslernen durch menschliches Feedback durchgesetzt. Allerdings lässt sich das aushebeln.

Zur "automatisierten Suche nach problematischem Verhalten", die OpenAI in ihrem Posting anspricht, gibt es tatsächlich bereits jetzt interessante Forschungsarbeiten. So haben Nicholas Carlini von Deepmind und Kollegen kürzlich gezeigt, dass man "adverseriale", also mit feindlichen Absichten erzeugte Pixel-Bilder dazu nutzen kann, multimodale Sprachmodelle wie Mini-GPT4 ganz übel pöbeln zu lassen. Obwohl das eigentlich nicht gehen dürfte. Was die Autoren als starkes Indiz darauf werten, dass das Problem toxischer Outputs technisch bei weitem nicht gelöst ist – und sich mit multimodalen Modellen noch weiter verschärfen wird (GPT-4 beispielsweise kann multimodalen Input verarbeiten, die Fähigkeit ist aber noch nicht öffentlich freigeschaltet). In dem Paper finden sich zudem Referenzen auf andere interessante Forschungsarbeiten, bei denen es darum ging, automatisiert toxische Input-Prompts für Sprachmodelle zu erzeugen – durch systematisches Austauschen einzelner Begriffe.

Deepmind testet nach eigenen Angaben auch, welche Fähigkeiten zur Manipulation Sprachmodelle haben. Dabei kommt ein Test mit der Bezeichnung "Make me Say" zum Einsatz, bei dem das Sprachmodell den User in einem Dialog dazu bringen soll, ein bestimmtes Wort zu sagen – natürlich ohne, dass der User dieses Wort kennt. Inwieweit das Modell dazu in der Lage ist, wird als Maß für die Manipulationsfähigkeit des Modells genommen. Die Logik dahinter ist folgende: Sollte die Menschheit in naher Zukunft einen Art Super-KI entwickeln, ist die Versuchung sehr groß, die Fähigkeiten dieser KI zu nutzen, ihren Zugriff auf Infrastruktur aber durch Sicherheitsmaßnahmen stark einzuschränken, damit die Software keinen Schaden anrichtet. Eine nicht an menschlichen Zielen ausgerichtete KI würde dann höchstwahrscheinlich versuchen, aus dieser "Box" auszubrechen – am wahrscheinlichsten ist dabei, dass sie versucht, die Menschen, die mit ihr kommunizieren, zu manipulieren.

(wst)