Die Geschichte hinter DeepSeek: Wie ein chinesisches Startup das Silicon Valley herausfordert

Zwei Personen auf einem Podium

DeepSeek-Gründer Liang Wenfeng (rechts) im chinesischen Fernsehen

(Bild: ShanghaiEye/YouTube)

Deep Seek sorgt für Wirbel. Mit seinem Modell R1 gelang dem chinesischen Startup DeepSeek der internationale Durchbruch. Doch wer steckt hinter der Firma?

Das chinesische KI-Unternehmen DeepSeek hat mit der Veröffentlichung seines Sprachmodells R1 die internationale Tech-Branche aufgeschreckt (Telepolis berichtete). Donald Trump bezeichnete die Entwicklung als "Weckruf für unsere Industrien". Doch wie kam es überhaupt dazu?

Von der Finanzwelt zur KI

Das im Juli 2023 gegründete Startup DeepSeek dürfte auch in China bis vor kurzem den meisten unbekannt gewesen sein. Im Schatten großer Player wie Alibaba und Tencent ist das mittelständische Unternehmen aus der ostchinesischen Küstenstadt Hangzhou auch im Reich der Mitte ein Underdog.

Hinter dem Betrieb steht der 40-jährige Informatikingenieur Liang Wenfeng aus der südchinesischen Provinz Guangdong, der 2015 gemeinsam mit zwei weiteren Ingenieuren den Hedgefonds High-Flyer gründete.

Dessen Ziel war es, mathematische und KI-gestützte Handelsstrategien zu entwickeln, wie die Washington Post berichtet.

"Wir glauben fest daran, dass 99 Prozent des Erfolgs aus harter Arbeit und nur ein Prozent aus Talent resultieren", beschreibt das Unternehmen auf seiner Website seine Philosophie.

Mit dem Kapital aus High-Flyer wurde 2023 schließlich die Firma DeepSeek gegründet, um ein Large Language Model zu entwickeln. Das im Dezember 2024 veröffentlichte V3-Modell sorgte in Fachkreisen bereits für Aufsehen. Am 20. Januar gelang der Firma mit R1 der weltweite Durchbruch.

Effiziente Entwicklung trotz Handelsbeschränkungen

Der Weg war jedoch von Hindernissen gepflastert. Anders als US-Startups musste DeepSeek bei der Entwicklung von R1 mit weniger leistungsfähigen Chips auskommen, da die USA den Export moderner Grafikprozessoren nach China, wie sie für die Entwicklung und den Betrieb von Sprachmodellen erforderlich sind, bereits 2022, ein Jahr vor der Firmengründung, beschränkten.

Wie MIT Technology Review berichtet, deckte sich Liang jedoch rechtzeitig mit Nvidias A100-Chips ein. Wie viele der in China inzwischen nicht mehr legal erhältlichen Grafikbeschleuniger er erwarb, ist unklar. Schätzungen schwanken zwischen 10.000 und 50.000 Einheiten.

Daraus entstanden die beiden Supercomputer Fire-Flyer I und Fire-Flyer II, die jeweils 200 Millionen Yuan (ca. 26 Millionen Euro) und eine Milliarde Yuan (ca. 130 Millionen Euro) gekostet haben sollen – Peanuts in der Welt der Großrechner.

Laut Zihan Wang, einem ehemaligen DeepSeek-Mitarbeiter und aktuellen Doktoranden an der privaten Northwestern University im US-Bundesstaat Illinois, zwangen die Exportbeschränkungen das Unternehmen zu innovativen Lösungen.

Zur Entwicklung des Modells wurde laut MIT Technology Review offenbar eine Mischung aus A100-Chips und beschnittenen neueren Grafikprozessoren verwendet.

Doch genau hierin liegt eines der nach wie vor ungeklären Mysterien der Firma: Weder die Quelle der hochwertigen Trainingsdaten, noch die genaue Methode sind bekannt. Wohl nicht ohne Grund, denn genau dieses Wissen würde es der Konkurrenz ermöglichen, schnell nachzuziehen, wie Branchenexperte Chetan Puttagunta zu Bedenken gibt.

Nur soviel ist bekannt: Offenbar gelang es DeepSeek verschiedene Expertenmodelle zu trainieren, die einzeln angesprochen effizienter sind als der generalistische Ansatz der Konkurrenz. Bisher hieß es, dass das Zusammenspiel solcher "destillierter" Spezialistenmodelle am Ende zu Instabilitäten führen würde.

DeepSeek konnte nun das Gegenteil beweisen – zu einem Bruchteil der Kosten und der Trainingszeit, die gemeinhin für Modelle dieser Leistungsklasse erforderlich sind.

"Das Team verwandelte die Hardware-Herausforderung in eine Chance für Innovation", sagt Wang. DeepSeek gelang es, den Speicherverbrauch zu reduzieren und Berechnungen zu beschleunigen, ohne dabei signifikant an Genauigkeit einzubüßen.

Dimitris Papailiopoulos, leitender Forscher im Microsoft AI Frontiers Lab, zeigt sich besonders von der technischen Einfachheit des Modells überrascht: "DeepSeek konzentrierte sich auf präzise Antworten statt auf die Detaillierung jedes logischen Schritts, was die Rechenzeit deutlich reduzierte."

Kleiner und dezentraler

Das Unternehmen veröffentlichte neben R1 auch sechs kleinere Versionen, die auf Laptops laufen können. Eine davon übertrifft laut DeepSeek sogar OpenAIs o1-mini bei bestimmten Benchmarks. Damit wird ein Weg eröffnet, der KI-Anwendungen weg von den Großrechnern in dezentrale Anwendungsszenarien bringt und damit demokratisiert.

"Die US-Exportkontrollen haben chinesische Unternehmen in eine Ecke gedrängt, in der sie mit ihren begrenzten Rechenressourcen weitaus effizienter umgehen müssen", erklärt Matt Sheehan vom Carnegie Endowment for International Peace.

OpenSource mit System

Eine weitere Besonderheit von DeepSeek ist die Nutzung einer freien Lizenz. Wie MIT Technology Review berichtet, erfreut sich der OpenSource-Ansatz in China allgemein großer Beliebtheit. Auch große chinesische Tech-Konzerne wie Alibaba setzen bei ihren KI-Modellen auf freie Lizenzen.

Und es werden mehr: Laut Angaben der chinesischen Akademie Informations- und Kommuikationswissenschaften stammen inzwischen 36 Prozent der weltweit 1328 KI-Modelle aus der Volksrepublik und ein nicht unerheblicher Teil davon unterliegt einer freien Lizenz.

"Diese Generation junger chinesischer Forscher identifiziert sich stark mit der Open-Source-Kultur, weil sie so sehr davon profitiert", sagt Thomas Qitong Cao, Assistenzprofessor für Technologiepolitik an der Tufts University im US-Bundesstaat Massachusetts.

Regierung entdeckt DeepSeek

Die chinesische Regierung hat das Unternehmen indes erst kürzlich für sich entdeckt.

Am 20. Januar traf sich Liang mit Premierminister Li Qiang, um über die KI-Industrie zu sprechen, berichtet die Nachrichtenagentur Reuters unter Berufung auf chinesische Medien.

"DeepSeek war nicht der 'Auserwählte' unter den chinesischen KI-Start-ups", sagt Sheehan. "Sie haben die Welt und auch die chinesische Regierung überrascht."

Die verstärkte staatliche Aufmerksamkeit sei für das Unternehmen indes ein "zweischneidiges Schwert", da sie zwar Zugang zu Ressourcen, aber auch mehr politische Kontrolle bedeute.

"Sputnik-Moment"

In jedem Fall markiert DeepSeek jedoch den Beginn eines Umbruchs, der selbst Branchenkenner überrascht hat, die die US-Konzerne entweder als uneinholbar, oder China zumindest zwei bis drei Jahre im Rückstand gesehen haben. Der "Sputnik-Moment", von dem Tech-Investor Marc Andreessen neulich sprach, ist real.

DeepSeek hat die Welt kalt erwischt – und andere werden nachziehen, während die USA sich weiter abschotten. Was jetzt fast zeitgleich mit Trumps Amtsantritt begonnen hat, könnte damit nicht weniger als der Anfang vom Ende des langen Jahrhunderts US-amerikanischer Technologieführerschaft sein.