D.h. veröffentlicht werden. Alle müssen daran mitwirken und Einsicht haben können. Der output von einem trainierten Modell bewegt sich immer innerhalb des Horizonts des datasets. Die Textpassagen, die ein chatbot liefert müssen nicht wortgenau im dataset vorkommen, aber sie sind immer vorstellbar vor dem Hintergrund. D.h. besteht dein dataset aus Redditkommentaren, dann "redet" der chatbot wie ein Reddituser. Sind bestimmte Perspektiven auf ein Gesicht in deinem dataset unterrepräsentiert, kann das Modell sie auch nicht faken. Der output von einem Modell ist ohne das dataset zu kennen nicht nachvollziehbar.
Ohne Transparenz bei datasets, weiß man auch nicht was für biases vorhanden sind oder ob Persönlichkeitsrechte verletzt wurden.
Edit: Sollte eigentlich ne Antwort sein. -.-
Das Posting wurde vom Benutzer editiert (31.03.2023 13:49).