Es gibt keine Belege dafür, dass ChatGPT dümmer wird.

Ein wichtiges Konzept, das man bei Chatbots verstehen muss, ist der Unterschied zwischen Fähigkeit und Verhalten. Ein Modell, das über eine Fähigkeit verfügt, kann diese Fähigkeit als Reaktion auf eine bestimmte Aufforderung zeigen oder auch nicht.

Ein Beispiel: Ein vielseitiger Profifußballer X hat nach langjährigem Training eine leicht schwankende, aber hohe Leistungsfähigkeit. Wird der Spieler X zu Saisonbeginn als Mittelstürmer eingesetzt, kann er viele Tore schießen. Fällt der Spielmacher der Mannschaft aus und entscheidet der Trainer, dass X zum 10er wird, dann könnte die Anzahl der Tore sinken. Der Laie wird behaupten, X ist schlechter geworden, weil er die Fähigkeiten anhand der Anzahl der Tore misst. Tatsächlich hat X nur sein Verhalten aufgrund taktischer Anweisungen geändert und spielt beispielsweise mehr Schlüsselpässe als vorher.

Ähnlich verhält es sich mit Chatbots. Chatbots erwerben ihre Fähigkeiten durch Vortraining. Das ist ein teurer Prozess, der bei den größten Modellen Monate dauert und daher nie wiederholt wird. Die Modelle ChatGPT 3, ChatGPT 3.5 und ChatGPT 4 besitzen beispielsweise unterschiedliche, aber feste vortrainierte Modelle, die nicht geändert werden. Nach dem Vortraining ist das Modell nur eine ausgeklügelte Autovervollständigung: Es chattet nicht mit dem Benutzer (im Gegensatz zu einem Fußballer schwankt die Leistungsfähigkeit nicht).

Das Chat-Verhalten entsteht erst durch die Feinabstimmung, die nach dem Vortraining erfolgt. Die Feinabstimmung ist viel billiger und wird regelmäßig durchgeführt. Ein weiteres wichtiges Ziel der Feinabstimmung ist es, unerwünschte Ergebnisse zu verhindern. Mit anderen Worten: Die Feinabstimmung kann sowohl Fähigkeiten hervorrufen als auch unterdrücken.

In Anbetracht all dessen sollten wir erwarten, dass die Fähigkeiten eines Modells im Laufe der Zeit weitgehend gleich bleiben, während sein Verhalten erheblich variieren kann. Dies steht in völliger Übereinstimmung mit den Ergebnissen einer Studie.

Die Studie testete GPT-3.5 und GPT-4 an vier Aufgaben: ein mathematisches Problem (Überprüfung, ob eine Zahl eine Primzahl ist), die Beantwortung sensibler Fragen, Codegenerierung und visuelles Denken. Sie fanden eine Verhaltensänderung bei zwei Aufgaben: mathematische Probleme und Codegenerierung, die als Verschlechterung interpretiert wurde. Allerdings wirft diese Interpretation bei näheren Hinschauen Fragen auf.

Nichts davon deutet auf eine Verschlechterung der Fähigkeiten hin. Sogar die Verhaltensänderung scheint spezifisch für die Eigenheiten der Bewertung der Autoren zu sein und es ist nicht klar, wie gut sich ihre Ergebnisse auf andere Aufgaben verallgemeinern lassen.

Das Posting wurde vom Benutzer editiert (29.08.2023 09:12).

Bewerten

- +

- 
- Beitrag
- 
- 
- Threads
- 

Ansicht umschalten

Nutzungsbedingungen