Qwen2.5-Max: Alibabas Antwort auf ChatGPT

Tongyi Qianwen Logo auf Smartphone-Bildschirm gesehen. Tongyi Qianwen AI ist ein ChatGPT-ähnliches Modell, das von Alibaba gestartet wurde. Chinesische Schriftzeichen übersetzen den Namen von AI als "Tongyi Qianwen".

(Bild: Ascannio / Shutterstock.com)

Alibaba präsentiert sein neues KI-Modell Qwen2.5-Max. In Tests übertrifft es sogar GPT-4 und andere führende Sprachmodelle. Was macht das chinesische System so besonders?

Erst vor wenigen Tagen überraschte das chinesische Unternehmen DeepSeek mit seinem KI-Modell R1, das nicht nur westliche Tech-Unternehmen aufhorchen ließ. Jetzt zieht auch der E-Commerce-Riese Alibaba nach und stellt sein neuestes Sprachmodell Qwen2.5-Max vor.

Das Mixture-of-Expert (MoE) Modell wurde nach Angaben des Unternehmens auf über 20 Billionen Token trainiert und zeigt in verschiedenen Benchmark-Tests beeindruckende Leistungen.

Qwen2.5-Max übertrifft Konkurrenz in Benchmark-Tests

In einer auf WeChat veröffentlichten Erklärung gab Alibaba Cloud, der Cloud-Computing- und KI-Zweig des Konzerns, bekannt, dass Qwen2.5-Max die Konkurrenzmodelle DeepSeek-V3, OpenAI’s GPT-4o und Meta Platforms’ Llama-3.1-405B in den Leistungs-Benchmark-Plattformen Arena-Hard und LiveBench "umfassend übertroffen" habe.

Die Benchmark-Leistung von Qwen2.5-Max lag laut Alibaba Cloud auch auf dem Niveau des Claude-3.5-Sonnet-Modells von Anthropic. Große Sprachmodelle wie Qwen2.5-Max bilden die Grundlage für generative KI-Dienste wie ChatGPT.

Verschiedene Modellgrößen und Open-Source-Verfügbarkeit

Das multimodale Modell von Alibaba wird in verschiedenen Größen angeboten, von drei Milliarden bis 72 Milliarden Parametern. Es umfasst sowohl Basis- als auch anweisungsabgestimmte Versionen. Das Flaggschiffmodell Qwen2.5-VL-72B-Instruct ist über die Qwen-Chat-Plattform zugänglich, während die gesamte Qwen2.5-VL-Serie auf den Open-Source-Plattformen Hugging Face und Alibabas eigener Model Scope verfügbar ist.

Alibaba Cloud betont, dass die starke Leistung von Qwen2.5-Max zeigt, wie die Erweiterung der Datenskala und der Modellparameter die Intelligenz eines KI-Modells effektiv verbessern können. Das Unternehmen sieht die Veröffentlichung als Beleg für seine Fähigkeit, dem aufstrebenden KI-Start-up DeepSeek etwas von dessen Ruhm zu stehlen.

Überraschung nach Erfolgen von DeepSeek

Die Vorstellung von Qwen2.5-Max erfolgte zu einem Zeitpunkt, an dem DeepSeek die Aufmerksamkeit der Welt auf sich zog. Das Start-up hatte mit DeepSeek-V3 und DeepSeek-R1 zwei fortschrittliche KI-Modelle entwickelt – zu einem Bruchteil der Kosten und Rechenleistung, die große Tech-Unternehmen normalerweise für solche Projekte benötigen.

DeepSeek-Gründer Liang Wenfeng wurde zuletzt zum neuen Gesicht der KI in China, als er an einem Treffen mit Premierminister Li Qiang in Beijing teilnahm. Das V3-Modell von DeepSeek wurde angeblich in nur zwei Monaten für 5,58 Millionen US-Dollar trainiert und soll in Tests ebenfalls führende Sprachmodelle übertroffen haben.