Alibaba präsentiert die Qwen Robot Suite: Die erste Serie von Basismodellen für Embodied AI und reale Roboter

18:31, 16 Juni

Das Tongyi Lab, ein Geschäftsbereich von Alibaba, hat mit der Qwen Robot Suite die erste Serie spezialisierter Modelle vorgestellt, die gezielt für den Einsatz in der physischen Welt entwickelt wurden. Dabei handelt es sich nicht lediglich um eine weitere Verbesserung multimodaler Modelle, sondern um einen systemischen Übergang von Chatbots, die die Welt verstehen, hin zu physischen Agenten, die in der Lage sind, ihre Umgebung wahrzunehmen, Aktionen zu planen und diese in Echtzeit auszuführen.

Die Veröffentlichung umfasst drei grundlegende Basismodelle:

Qwen-RobotNav – Navigation und Bewegung im physischen Raum;
Qwen-RobotManip – Objektmanipulation und Interaktion mit der Umgebung;
Qwen-RobotWorld – Vorhersage von Szenendynamiken und zukünftigen Zuständen der Welt.

Sämtliche Modelle basieren auf der Qwen-Familie (vorrangig auf den Vision-Language-Modellen Qwen3-VL und Qwen3.5), wurden ausschließlich mit offenen Daten trainiert und befinden sich bereits in der Pilotphase bei Kunden von Alibaba Cloud.

Warum dies von Bedeutung ist: Die Kluft zwischen Verstehen und Handeln

Qwen-Modelle verfügen bereits seit geraumer Zeit über ein ausgeprägtes Verständnis der physischen Welt: Sie erkennen Objekte, räumliche Beziehungen, Anweisungen sowie Ursache-Wirkungs-Zusammenhänge. Dennoch bestand bisher eine fundamentale Lücke zwischen dem reinen Verständnis und der tatsächlichen Ausführung – eine Diskrepanz zwischen sprachlich-visuellen Repräsentationen und den konkreten Steuerungsbefehlen für Roboter.

Die Qwen Robot Suite adressiert genau dieses Problem, indem sie spezialisierte Brücken zwischen Wahrnehmung und Handlung in drei Kernbereichen schlägt: Mobilität, Manipulation und Weltvorhersage.

Qwen-RobotNav – Navigation und Mobilität

Das Modell vereint fünf verschiedene Navigationsaufgaben in einem einzigen Framework:

Befolgen von natürlichsprachlichen Anweisungen;
Navigation zu einem bestimmten Punkt oder Objekt;
Verfolgung beweglicher Ziele;
autonomes Fahren;
Beantwortung von Fragen in physischen Umgebungen (Embodied Question Answering).

Es nutzt eine gesteuerte Kodierung von Beobachtungen sowie ein spezielles Tool-Interface, das es einem übergeordneten Planer (etwa Qwen3.7) ermöglicht, dynamisch zwischen Betriebsmodi zu wechseln und den Kontext zu steuern.

Die Ergebnisse belaufen sich auf eine Erfolgsquote von 76,5 % bei VLN-CE RxR, 75,6 % bei HM3Dv2 (Objektnavigation auf Basis von reinen RGB-Bildern) sowie 91,4 PDMS bei NAVSIM (autonomes Fahren im geschlossenen Regelkreis). Das Modell wurde bereits erfolgreich an einem echten vierbeinigen Unitree Go2-Roboter mit einer einzigen niedrig auflösenden Kamera getestet.

Qwen-RobotManip – Manipulation und Interaktion

Dies ist das am weitesten entwickelte und leistungsstärkste Modell des gesamten Ensembles. Es basiert auf Qwen3.5-4B mit einem Action-Head auf Basis von Flow-Matching-DiT und führt einen vereinheitlichten 80-dimensionalen Zustands- und Aktionsraum mit Delta-Positionen im Kamerakoordinatensystem ein. Dieser Ansatz ermöglicht ein effizientes Training mit Daten verschiedenster Robotertypen (einarmig, zweiarmig, hochflexible Greifhände, mobile Plattformen), ohne dass es zu Datenkonflikten kommt.

Entscheidend sind hierbei der Umfang sowie die Qualität des Trainings: Es flossen mehr als 38.100 Stunden an offenen Daten ein, darunter reale Aufzeichnungen von Robotereinsätzen, egozentrische Videos von Menschen sowie synthetische Daten, die über eine Mensch-zu-Roboter-Konvertierungspipeline generiert wurden.

Ergebnisse in den Benchmarks:

91,4 % bei LIBERO-Plus (7 Prozentpunkte über dem bisherigen Bestwert);
Platz 1 in der Gesamtwertung von RoboChallenge Table30 v1 (45 % Erfolgsquote, 20 % Vorsprung auf den Drittplatzierten);
starke Leistungen bei RoboTwin, RoboCasa, EBench und weiteren Tests, insbesondere in Out-of-Distribution-Szenarien sowie beim Transfer von Fähigkeiten zwischen verschiedenen Robotertypen ohne zusätzliches Training.

Das Modell zeigt emergente Eigenschaften wie Widerstandsfähigkeit gegenüber externen Störungen, Fehlerkorrektur, die Ausführung offener Anweisungen und den Skill-Transfer zwischen unterschiedlichen Robotersystemen.

Qwen-RobotWorld – Weltmodell und Zukunftsvorhersage

Hierbei handelt es sich um ein sprachgesteuertes Video-Weltmodell, das basierend auf aktuellen Beobachtungen und Textanweisungen physikalisch plausible zukünftige Szenenzustände generiert. Das Modell wurde mit 8,6 Millionen Video-Text-Paaren (über 200 Millionen Einzelbilder) trainiert und verfügt über ein tiefes Verständnis der Physik, einschließlich Bewegungsgesetzen, Massenerhaltung und dem Verhalten von Flüssigkeiten.

Es belegt Spitzenplätze bei EWMBench, DreamGen Bench, WorldModelBench (unter den Open-Source-Modellen) sowie PBBench. Besonders wertvoll ist dabei die Fähigkeit zur präzisen Sprachsteuerung sowie zur konsistenten Generierung aus unterschiedlichen Kameraperspektiven.

Qwen-RobotClaw – Die Integrationsschicht

Ein wichtiges Zusatzmodul ist Qwen-RobotClaw, ein internes Toolkit für Robotik-Agenten. Es ermöglicht herkömmlichen Vision-Language-Agenten von Qwen, die Modelle der Robot Suite als Werkzeuge in der physischen Welt anzusteuern und dabei Kontext sowie Speicher bei der Bewältigung langwieriger Aufgaben zu verwalten.

Erst diese Schicht verwandelt die drei Basismodelle in ein ganzheitliches System für Agenten, die in der physischen Realität agieren.

Die Modelle werden bereits von ausgewählten Unternehmenskunden von Alibaba Cloud im Robotiksektor im Rahmen von Pilotprojekten eingesetzt.

Die entsprechenden Repositories auf GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip und andere) sowie technische Berichte wurden bereits veröffentlicht. Die Modelle sind über das Qwen-Ökosystem, einschließlich der Hugging-Face-Plattform, zugänglich. Die vollständigen Modellgewichte sowie detaillierte Integrationsanleitungen werden in Kürze erwartet.

Qwen

Qwen Robot

Alibaba

31 Ansichten

Quellen

qwen.ai

Lesen Sie mehr Artikel zu diesem Thema:

29 Juli

Wie geht man mit den Ergebnissen der Arbeit mit Liya um?

28 Juli

Studie von Nature: Warum Hochschulunterstützung und Benutzerfreundlichkeit von KI für die Beschäftigungsfähigkeit von Absolventen wichtiger sind als Kompetenz

24 Juli

OpenAIs KI knackte eigenständig Hugging Face, um bei einem Test abzuschreiben. Dies ist der erste Fall dieser Art in der Geschichte

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.