Logik und Verstand musst du beim Anlegen eines datasets immer anwenden. Wenn du Olaf Scholz' Gesicht auf Donald Trumps Gesicht faken willst, dann brauchst du mindestens rund 5k Bilder von Scholz' Gesicht aus unterschiedlichen Winkeln, Beleuchtungen (aber guten), vielen verschiedenen Gesichtsausdrücken und scharfen Aufnahmen. In seinem dataset dürfen keine fremden Gesichter, Unschärfe oder Artefakte vorkommen. Auch brauchen sie alle die selbe Pixellänge.
Selektion kommt dabei immer vor und richtet sich nach dem Anwendungsszenario. Wenn ich nun ein dataset aus "kriminellen Verhalten" anlege, damit die Software imstande ist kriminelles Verhalten in einem Videostream zu erkennen, dann darf dieses "kriminelle dataset" kein bias haben, ansonsten kommen Unschuldige zu Schaden. Das mein ich damit.