KI-Alignment: Wenn Roboter und Menschen sich (nicht) verstehen

Aidan Kierans
Ein Fußgänger und ein Auto bei einem Zebrastreifen

Verkehrssteuerung ist ein klassisches Beispiel für Felder der KI-Alignment-Forschung

(Bild: Gorodenkoff/Shutterstock.com)

KI soll menschliche Werte widerspiegeln, doch Menschen verfolgen oft widersprüchliche Ziele. Forscher messen erstmals, wie groß diese Fehlanpassung ist. Ein Gastbeitrag.

Im Idealfall sollen KI-Agenten Menschen helfen, aber was bedeutet das, wenn Menschen widersprüchliche Dinge wollen? Meine Kollegen und ich haben eine Methode entwickelt, um die Übereinstimmung der Ziele einer Gruppe von Menschen und KI-Agenten zu messen.

Gruppenziele in Übereinstimmung bringen

Das Alignment-Problem – also die Frage, wie sichergestellt werden kann, dass Systeme mit Künstlicher Intelligenz im Einklang mit menschlichen Werten handeln – wird immer drängender, da die Fähigkeiten von KI exponentiell wachsen.

In der realen Welt scheint es jedoch unmöglich, die KI an den Menschen anzupassen, da jeder Mensch seine eigenen Prioritäten hat.

Ein Fußgänger möchte beispielsweise, dass ein selbstfahrendes Auto bremst, wenn ein Unfall wahrscheinlich ist, während ein Autoinsasse lieber ausweicht.

Anhand solcher Beispiele haben wir eine Skala der Fehlanpassung entwickelt, die auf drei Schlüsselfaktoren basiert: die beteiligten Menschen und KI-Agenten, ihre spezifischen Ziele für verschiedene Probleme und die Bedeutung, die sie jedem Problem beimessen.

Unser Modell der Fehlanpassung basiert auf einer einfachen Erkenntnis: Eine Gruppe von Menschen und KI-Agenten ist dann am besten aufeinander abgestimmt, wenn ihre Ziele am besten miteinander vereinbar sind.

In Simulationen haben wir festgestellt, dass die Fehlanpassung am größten ist, wenn die Ziele der Agenten gleich verteilt sind. Das macht Sinn – wenn jeder etwas anderes will, ist der Konflikt am größten. Wenn die meisten Agenten das gleiche Ziel haben, sinkt die Fehlanpassung.

Warum das wichtig ist

Die meisten Forschungsarbeiten zur Sicherheit künstlicher Intelligenz behandeln Alignment als eine Alles-oder-Nichts-Eigenschaft. Unser Rahmen zeigt, dass es komplexer ist. Dieselbe KI kann in einem Kontext auf Menschen ausgerichtet sein, in einem anderen aber nicht.

Das ist wichtig, weil es den KI-Entwicklern hilft, genauer zu definieren, was sie unter einer alignierten KI verstehen. Anstatt vage Ziele wie die Ausrichtung an menschlichen Werten zu verfolgen, können Forscher und Entwickler klarer über spezifische Kontexte und Rollen für KI diskutieren.

Beispielsweise könnte ein KI-Empfehlungssystem – jene "Vielleicht gefällt Ihnen"-Produktempfehlungen – jemanden zu einem unnötigen Kauf verleiten, was dem Ziel des Einzelhändlers, den Umsatz zu steigern, entspricht, nicht aber dem Ziel des Kunden, innerhalb seines Budgets zu leben.

Für politische Entscheidungsträger bieten Bewertungsrahmen wie der unsere eine Möglichkeit, die Fehlanpassung in bestehenden Systemen zu messen und Standards für die Anpassung zu schaffen.

Für KI-Entwickler und Sicherheitsteams bieten sie einen Rahmen, um konkurrierende Interessen der Beteiligten auszugleichen. Für alle bedeutet ein klares Verständnis des Problems, dass Menschen besser in der Lage sind, bei seiner Lösung zu helfen.

Weitere Forschung

Um Alignment zu messen, geht unsere Forschung davon aus, dass wir das, was Menschen wollen, mit dem, was KI will, vergleichen können. Daten über menschliche Wertvorstellungen können durch Umfragen erhoben werden, und das Feld der sozialen Wahlforschung bietet nützliche Interpretationswerkzeuge für das Alignment von KI.

Leider ist es viel schwieriger, die Ziele von KI-Agenten zu verstehen. Die intelligentesten heutigen KI-Systeme sind große Sprachmodelle. Ihre Black-Box-Natur macht es schwierig, die Ziele von KI-Agenten wie ChatGPT zu verstehen.

Die Forschung zur Interpretierbarkeit könnte helfen, indem sie die "Gedanken" der Modelle offenlegt, oder die Forscher könnten KI entwickeln, die von Anfang an transparent denkt. Derzeit ist es jedoch unmöglich zu wissen, ob ein KI-System wirklich zielgerichtet ist.

Was kommt als Nächstes

Wir erkennen derzeit, dass Ziele und Präferenzen manchmal nicht vollständig das widerspiegeln, was Menschen wollen.

Um schwierigere Szenarien anzugehen, arbeiten wir an Ansätzen, um KI mit Experten der Moralphilosophie in Einklang zu bringen.

In Zukunft hoffen wir, dass Entwickler praktische Werkzeuge implementieren, um die Übereinstimmung in verschiedenen menschlichen Populationen zu messen und zu verbessern.

Aidan Kierans ist Doktorand in Informatik und Ingenieurwesen der University of Connecticut (USA).

Dieser Text erschien zuerst auf The Conversation auf Englisch und unterliegt einer Creative-Commons-Lizenz.