Tests zeigen Schwächen in OpenAIs Deep-Research-Funktion

17. Februar 2025 Raffaele F. Ciriello

Bildschirm mit OpenAI's Deep Research — (Bild: DIA TV / Shutterstock.com)

OpenAIs neue KI-Funktion "Deep Research" verspricht Recherchen in Minuten. Das Tool ist Teil von ChatGPT Pro. Doch erste Tests decken gravierende Mängel auf.

"Deep Research" von OpenAI ist das neueste Tool für künstliche Intelligenz (KI), das für Furore sorgt und verspricht, in wenigen Minuten zu erledigen, wofür ein menschlicher Experte Stunden benötigen würde.

Als Funktion in ChatGPT Pro gebündelt und als Forschungsassistent vermarktet, der es mit einem ausgebildeten Analysten aufnehmen kann, durchsucht es selbstständig das Internet, stellt Quellen zusammen und liefert strukturierte Berichte. Es erzielte sogar 26,6 Prozent bei Humanity’s Last Exam (HLE), einem harten KI-Benchmark, und übertraf damit viele Modelle.

Aber die Tiefenrecherche wird dem Hype nicht ganz gerecht. Sie erstellt zwar ausgefeilte Berichte, weist aber auch schwerwiegende Mängel auf. Laut Journalisten , die es ausprobiert haben, kann die Deep-Research-Methode wichtige Details übersehen, mit aktuellen Informationen zu kämpfen haben und manchmal Fakten erfinden.

OpenAI weist darauf hin, wenn es die Grenzen seines Tools aufzeigt. Das Unternehmen sagt auch, dass es "manchmal Fakten in Antworten halluzinieren oder falsche Schlussfolgerungen ziehen kann, wenn auch in deutlich geringerem Maße als bei bestehenden ChatGPT-Modellen, wie interne Bewertungen zeigen".

Es ist keine Überraschung, dass sich unzuverlässige Daten einschleichen können, da KI-Modelle Dinge nicht auf die gleiche Weise "wissen" wie Menschen.

Die Idee eines KI-"Forschungsanalysten" wirft auch eine Reihe von Fragen auf. Kann eine Maschine – egal, wie leistungsfähig sie ist – einen ausgebildeten Experten wirklich ersetzen? Welche Auswirkungen hätte dies auf die Wissensarbeit? Und hilft uns KI wirklich, besser zu denken, oder macht sie es nur einfacher, ganz mit dem Denken aufzuhören?

Was ist "Deep Research" und für wen ist es gedacht?

"Deep Research" richtet sich an Fachleute aus den Bereichen Finanzen, Wissenschaft, Politik, Recht und Ingenieurwesen sowie an Akademiker, Journalisten und Unternehmensstrategen und ist die neueste ‚agentic experience‘, die OpenAI in ChatGPT eingeführt hat. Sie verspricht, die schwere Arbeit der Recherche in wenigen Minuten zu erledigen.

Derzeit steht die Tiefenrecherche nur ChatGPT-Pro-Nutzern in den Vereinigten Staaten zur Verfügung, und zwar für 200 US-Dollar pro Monat. OpenAI gibt an, dass die Funktion in den kommenden Monaten für Plus-, Team- und Enterprise-Nutzer eingeführt werden soll, wobei für die Zukunft eine kostengünstigere Version geplant ist.

Im Gegensatz zu einem Standard-Chatbot, der schnelle Antworten liefert, folgt die Tiefenrecherche einem mehrstufigen Prozess, um einen strukturierten Bericht zu erstellen:

Der Benutzer stellt eine Anfrage. Dies kann alles Mögliche sein, von einer Marktanalyse bis zu einer Zusammenfassung eines Rechtsfalls.
Die KI klärt die Aufgabe. Sie kann Folgefragen stellen, um den Forschungsumfang zu verfeinern.
Der Agent durchsucht das Internet. Er durchsucht selbstständig Hunderte Quellen, darunter Nachrichtenartikel, Forschungsarbeiten und Online-Datenbanken.
Er fasst seine Ergebnisse zusammen. Die KI extrahiert die wichtigsten Punkte, ordnet sie in einem strukturierten Bericht an und zitiert ihre Quellen.
Der Abschlussbericht wird geliefert. Innerhalb von fünf bis 30 Minuten erhält der Benutzer ein mehrseitiges Dokument – möglicherweise sogar eine Doktorarbeit – mit einer Zusammenfassung der Ergebnisse.

Auf den ersten Blick klingt das wie ein Traumwerkzeug für Wissensarbeiter. Bei näherer Betrachtung zeigen sich jedoch erhebliche Einschränkungen.

Lesen Sie auch

KI-gesteuertes Lämpchen zeigt nach rechts, Hand zeigt nach links

KI: Vertrauen in den Menschen – oder ein gefährlicher Irrglaube?

Physik-Paradox: Wenn KI gleichzeitig brillant und ahnungslos ist

Wenn KI-Giganten Eigentumsansprüche anmelden: OpenAIs gefährlicher Präzedenzfall

Bei vielen frühen Tests wurden Mängel aufgedeckt:

Es fehlt der Kontext. KI kann zusammenfassen, aber sie versteht nicht vollständig, was wichtig ist.
Sie ignoriert neue Entwicklungen. Sie hat wichtige Gerichtsurteile und wissenschaftliche Aktualisierungen verpasst.
Sie erfindet Dinge. Wie andere KI-Modelle kann sie getrost falsche Informationen generieren.
Sie kann Fakten nicht von Fiktion unterscheiden. Sie unterscheidet nicht zwischen zuverlässigen und unzuverlässigen Quellen.

OpenAI behauptet zwar, dass sein Tool mit menschlichen Analysten konkurrieren kann, aber KI fehlt zwangsläufig das Urteilsvermögen, die Kontrolle und das Fachwissen, die gute Forschung wertvoll machen.

Was KI nicht ersetzen kann

ChatGPT ist nicht das einzige KI-Tool, das das Internet durchsuchen und mit nur wenigen Eingaben Berichte erstellen kann. Bemerkenswert ist, dass Hugging Face nur 24 Stunden nach der Veröffentlichung von OpenAI eine kostenlose Open-Source-Version herausbrachte, die fast genauso leistungsfähig ist.

Das größte Risiko von Deep-Research- und anderen KI-Tools, die für die Forschung auf "menschlicher Ebene" vermarktet werden, ist die Illusion, dass KI menschliches Denken ersetzen kann. KI kann Informationen zusammenfassen, aber sie kann ihre eigenen Annahmen nicht hinterfragen, Wissenslücken aufzeigen, kreativ denken oder unterschiedliche Perspektiven verstehen.

Und KI-generierte Zusammenfassungen entsprechen nicht der Tiefe eines qualifizierten menschlichen Forschers.

Jeder KI-Agent, egal, wie schnell er ist, ist immer noch nur ein Werkzeug und kein Ersatz für menschliche Intelligenz. Für Wissensarbeiter ist es wichtiger denn je, in Fähigkeiten zu investieren, die KI nicht nachahmen kann: kritisches Denken, Faktenprüfung, tiefgreifendes Fachwissen und Kreativität.

Wenn Sie KI-Recherchetools verwenden möchten, gibt es Möglichkeiten, dies verantwortungsbewusst zu tun. Ein durchdachter Einsatz von KI kann die Recherche verbessern, ohne dass Genauigkeit oder Tiefe beeinträchtigt werden. Sie können KI zur Effizienzsteigerung einsetzen, z. B. zum Zusammenfassen von Dokumenten, aber das menschliche Urteilsvermögen für Entscheidungen beibehalten.

Überprüfen Sie immer die Quellen, da KI-generierte Zitate irreführend sein können. Vertrauen Sie Schlussfolgerungen nicht blind, sondern wenden Sie kritisches Denken an und gleichen Sie Informationen mit seriösen Quellen ab. Bei Themen mit hoher Relevanz – wie Gesundheit, Recht und Demokratie – sollten Sie die Ergebnisse der KI durch Expertenwissen ergänzen.

Trotz des umfangreichen Marketings, das uns etwas anderes weismachen will, hat die generative KI noch viele Einschränkungen. Menschen, die Informationen kreativ zusammenfassen, Annahmen infrage stellen und kritisch denken können, werden weiterhin gefragt sein – die KI kann sie weiterhin nicht ersetzen.

Raffaele F. Ciriello ist Dozent für Wirtschaftsinformatik an der Universität Sydney.

Dieser Artikel wurde zuerst von The Conversation unter einer Creative-Commons-Lizenz veröffentlicht. Lesen Sie den Originalartikel. Übersetzer: Bernd Müller