DeepSeek R1: Chinas Antwort auf OpenAI übertrifft alle Erwartungen

23. Januar 2025 Marcel Kunzmann

Zwei Silhouetten von Menschen stilisiert mit Chinas und der USA Flagge — China versucht im Bereich KI mit den USA gleichzuziehen

(Bild: KaimDH/Shutterstock.com)

China rüstet bei KI massiv auf. Das neue Sprachmodell DeepSeek R1 erreicht Spitzenwerte in wichtigen Tests. Und setzt im Unterschied zur Konkurrenz auf eine freie Lizenz.

Während Donald Trump Milliardeninvestitionen im Bereich Künstliche Intelligenz ankündigt, hat das chinesische KI-Labor DeepSeek mit DeepSeek-R1-Zero und DeepSeek-R1 am Montag zwei neue KI-Sprachmodelle veröffentlicht, die aufhorchen lassen: Laut dem Unternehmen erreichen die Modelle in einigen Benchmarks eine Leistung, die vergleichbar mit OpenAIs wegweisendem o1-Modell ist – und das zu einem Bruchteil der Kosten und mit freiem Lizenzmodell.

Im Gegensatz zu den meisten herkömmlichen großen Sprachmodellen verwendet die chinesische KI einen als "simuliertes Denken" ("simulated reasoning") bezeichneten Ansatz.

Dabei simuliert das Modell ähnlich wie ein Mensch eine Kette von Gedankengängen, während es an einer Lösung für eine Anfrage arbeitet. Dieser Prozess benötigt mehr Zeit als bei typischen Sprachmodellen, führt aber gerade bei Aufgaben aus den Bereichen Mathematik, Physik und Naturwissenschaften zu besseren Ergebnissen.

OpenAIs o1-Modell, das im September 2024 vorgestellt wurde, war das erste öffentliche KI-Modell, das auf diesen Ansatz setzt.

Beeindruckende Benchmarkergebnisse

Das in der östlichen Küstenprovinz Zhejiang ansässige Unternehmen DeepSeek hat die Leistung seiner Modelle anhand verschiedener Benchmarks getestet. Im Mathematiktest Aime 2024 erreichte DeepSeek-R1 einen Wert von 79,8 Prozent, während OpenAI mit 79,2 Prozent minimal schlechter abschneidet.

Im Math-500-Benchmark, einer Sammlung von Textaufgaben, erzielte das Modell sogar eine Genauigkeit von 97,3 Prozent und übertraf damit alle anderen getesteten Systeme.

Eine Statistik mit Benchmarkergebnissen in Balkendiagrammform — DeepSeeks Modelle im Benchmark-Vergleich mit OpenAI
(Bild: DeepSeek )

Auch im Programmieren zeigt DeepSeek-R1 beeindruckende Fähigkeiten. In der Programmierbewertung SWE-bench Verified erreichte das Modell einen Wert von 49,2 Prozent. Dies demonstriert Programmierfähigkeiten auf Expertenniveau.

In Tests zum Allgemeinwissen wie MMLU und GPQA Diamond erzielte DeepSeek-R1 Genauigkeiten von 90,8 beziehungsweise 71,5 Prozent. Im Schreib- und Frage-Antwort-Benchmark AlpacaEval 2.0 erreichte das Modell eine Gewinnrate von 87,6 Prozent.

Die Ergebnisse müssen allerdings mit Vorsicht interpretiert werden, da sie bislang noch nicht unabhängig verifiziert worden sind. Im Praxistest des Autors hinterlässt das Modell einen guten Eindruck und bewegt sich durchweg auf dem Niveau von OpenAIs o1-Version.

Bei einer Anfrage erklärte das Modell, dass die Datenbank mit Informationen bis zum Juli 2024 trainiert worden sei. Wie OpenAIs aktuelle Modelle kann DeepSeek auf Wunsch auch neuere Informationen aus dem Netz einbeziehen. Eine Funktion zur Generierung von Bildern ist nicht vorhanden.

Freie Lizenz, aber mit Einschränkungen

DeepSeek hat sein R1-Modell unter der freien MIT-Lizenz veröffentlicht. Dies ermöglicht jedermann die Nutzung und Modifizierung des Systems, auch für kommerzielle Zwecke.

Die größte Version von DeepSeek-R1 umfasst 671 Milliarden Parameter. Daneben bietet das Unternehmen auch mehrere verkleinerte Varianten mit 1,5 bis 70 Milliarden Parametern an, von denen die kleinste Version sogar auf einem Laptop lauffähig ist

Im kommerziellen Bereich drängt DeepSeek indes mit Kampfpreisen auf den Markt: Während OpenAI für die o1-Version 60 US-Dollar für eine Million Ausgabe-Tokens veranschlagt, werden bei DeepSeek lediglich 2,19 US-Dollar fällig. Damit ist die chinesische KI rund 95 Prozent günstiger als die US-Konkurrenz.

DeepSeek-R1 unterliegt allerdings in der Grundkonfiguration China-spezifischen Einschränkungen, da KI-Systeme in der Volksrepublik gemäß den Vorschriften für Internetdienste "sozialistische Kernwerte" implementieren müssen.

Wie das Portal ArsTechnica berichtet, verweigert das System beispielsweise Antworten zu politisch sensiblen Themen wie dem Tian'anmen-Platz oder dem Status Taiwans.

Im Test des Autors nahm DeepSeek auf Deutsch teilweise auch zu den genannten Fragen ausführlich Stellung in einer Weise, wie man es auch von ChatGPT erwarten würde. Auf Englisch gefragt, wollte die KI jedoch lieber über etwas anderes reden.

Laut ArsTechnica lassen sich die politischen Filter komplett umgehen, wenn man statt der Cloudversion eine lokal gehostete Instanz des Systems betreibt – was dank des Open-Source-Lizenzmodells möglich ist.

Lesen Sie auch

Bei Waldbränden wird Kohlendioxid emittiert. Mit dem neuen SpT-Modell kann das fast in Echtzeit registriert werden.

Künstliche Intelligenz revolutioniert globale Kohlendioxid-Überwachung

Pnzette mit Aufschtift "KI" hält rotes Puzzleteil aus günem Puzzle

Kluger-Hans-Effekt: Wenn KI-Systeme aus den falschen Gründen Recht haben

Screenshot von Ernie auf einem Smartphone

Baidu schafft mit neuen KI-Modellen Konkurrenz zu DeepSeek und OpenAI

Roboter für die Zubereitung von Kaffee für den Besitzer

Smart Home 2.0: Haushaltsroboter folgen unseren Gesten

Lagerverwaltung mit automatisierten Robotik-, Lager- und Technologieverbindungen... durch Automatisierung im Produktmanagement,AI-Systeme für die Arbeit

Können ethische Richtlinien KI-Einsatz in Unternehmen verbessern?

Die Veröffentlichung von DeepSeek R1 fällt in eine Zeit, in der die US-Regierung den Export von KI-Technologien nach China stärker beschränken will. Unternehmen wie OpenAI warnen bereits davor, dass chinesische Modelle US-Systeme in Zukunft einholen oder sogar überholen könnten.

Mit DeepSeek, Alibaba und Moonshot AI haben mittlerweile mindestens drei chinesische Labors Modelle vorgestellt, die nach eigenen Angaben mit OpenAIs o1 mithalten können.

Laut Dean Ball, einem KI-Forscher an der George Mason University, deutet der Trend darauf hin, dass chinesische Entwicklerteams schnell zum führenden Stand der Technik aufschließen. Dabei hob er insbesondere die Fähigkeiten der auf einfachen Heimrechnern lauffähigen R1-Varianten hervor, die zur Verbreitung und Demokratisierung von KI-Anwendungen beitragen könnten.

"Die beeindruckende Leistung der verkleinerten DeepSeek-Modelle bedeutet, dass sich äußerst leistungsfähige Reasoning-Systeme schnell verbreiten und auf lokaler Hardware laufen werden – weit weg von den Augen jeglicher zentraler Kontrollregime (einschließlich der US-Exportkontrollen)", schreibt Ball.