Alles eine Frage der SNR

Welchen Output eine KI generiert, hängt neben den zugrundeliegenden Algorithmen maßgeblich vom Input bzw. der Qualität und Quantität der Trainingsdaten ab.

Das Signal-zu-Rausch-Verhältnis der "Weltliteratur" -also aller veröffentlichten Schriftstücke, Bücher, Zeitschriftenartikel, Essays, Datenbanken, Webseiten, Blogeinträge, Diskussionsforen, Reden, etc. - ist nicht gerade prickelnd.

Allein im Wissenschaftsbereich sprießen in den letzten ca. 15 Jahren so genannte "predator journals" wie Pilze aus dem Boden, die gegen einen kleinen 3-4 stelligen Obulus es sogar viert- und fünftklassigen Wissenschaftlern ermöglichen, buchstäblich jeden Schrott, sogar völlig sinnfreie Artikel zu publizieren in einem "wissenschaftlichen Fachjournal".
Und natürlich findet man bruttoregistertonnenweise "Informationen" auf bedrucktem Papier oder im Netz, die schlicht falsche, abstruse, hanebüchene Aussagen enthält.

Hinzu kommt noch etwas: Feedback. Natürlich ist das Feedback, das eine offen zugängliche KI wie ChatGPT von hunderten Millionen Nutzern tagtäglich, alles andere als immer akkurat und korrekt.
Und last but not least: die Güte desgenerierten Outputs schwankt zum Teil erheblich - es kann also durchaus sein, dass bei sehr hoher Auslastung die Verarbeitungstiefe der KI herabgesetzt wird, um Ressourcen zu schonen - und ja, es kann dann schon einen beträchtlichen Unterschied machen, ob ChatGPT weiterhin mit 1 Miilliarde Parametern rechnet oder nur mit einem Bruchteil davon.

Alles in allem:
Eine Maschine kann sehr wohl "verdummen", wenn sie
- falsch gefüttert wird
- falsche Rückmeldung erhält
- zu ausgelastet ist.

Aber so geht es Menschen auch: Wer sich ausschließlich den ganzen Tag Schrott ins Hirn reinzieht und ausschließlich mit merkwürdigen Personen abhängt, der wird nicht nicht gerade heller leuchten, erst recht nicht, wenn er gerade mehrere Sachen parallel machen muss.

Natürlich kann man aber ein KI-basiertes Sprachmodell oder andere KI-"Maschinen" auch intern entwickeln, indem man sie mit eigenen, möglichst vielen, aber handselektierten und hoch qualitativen Trainingsdaten füttert (gewissermaßen "Bio-Food") und ausschließlich eigenes Feedback gibt - und der KI eine sehr muskulöse Hardware zur Verfügung stellt. So wie etwa Tesla seinen neuen Superrechner mit 10.000 nVidia H100-Beschleunigern.

Man köchele das ganze auf kleiner Flamme ein paar Wochen oder Monate (je nach Hardware) und voila - fertig ist die hauseigene KI, die einem vermutlich extrem hochwertige und akkuraten Output generiert, basierend auf dem Material, mit dem sie gefüttert wurde.

Man stelle sich nur mal ein auf wissenschaftlich-biomedizinische Anwendungen optimiertes Sprachmodell vor, das ausschließlich mit allen Volltexten aller medizinischen Journals von 1900 bis 2023 gefüttert wurde, und die einen IF > 3 punkten haben.
Zusätzlich noch mit allen verfügbaren fachbezogenen Lehrbüchern....
Da bekommst Du feuchte Augen....

Das Posting wurde vom Benutzer editiert (29.08.2023 14:40).

Bewerten

- +

- 
- Beitrag
- 
- 
- Threads
- 

Ansicht umschalten

Nutzungsbedingungen