Tongyi Lab, een onderdeel van Alibaba, heeft de Qwen Robot Suite gelanceerd — de eerste reeks gespecialiseerde modellen die specifiek zijn ontwikkeld voor interactie met de fysieke wereld. Dit is niet louter een verbetering van bestaande multimodale modellen, maar markeert een systematische verschuiving van chatbots die de wereld begrijpen naar fysieke agenten die hun omgeving kunnen waarnemen, acties kunnen plannen en deze in realtime kunnen uitvoeren.
De release omvat drie fundamentele modellen:
- Qwen-RobotNav — navigatie en verplaatsing in de fysieke ruimte;
- Qwen-RobotManip — manipulatie van objecten en interactie met de omgeving;
- Qwen-RobotWorld — voorspelling van sc'enedynamiek en de toekomstige staat van de wereld.
Alle modellen zijn gebaseerd op de Qwen-familie (met name de visueel-lingu'istische modellen Qwen3-VL en Qwen3.5), uitsluitend getraind op open data en worden momenteel al proefsgewijs ingezet bij klanten van Alibaba Cloud.
Waarom dit belangrijk is: de kloof tussen begrip en actie
Qwen-modellen hebben al geruime tijd een goed begrip van de fysieke wereld: ze herkennen objecten, ruimtelijke relaties, instructies en oorzaak-gevolgrelaties. Desondanks bleef er een fundamentele kloof bestaan tussen begrip en daadwerkelijke actie — een discrepantie tussen de visueel-lingu'istische representaties en de besturingscommando's voor de robot.
De Qwen Robot Suite lost precies dit probleem op door gespecialiseerde 'bruggen' te slaan tussen waarneming en actie op drie cruciale gebieden: mobiliteit, manipulatie en wereldvoorspelling.
Qwen-RobotNav — navigatie en mobiliteit
Het model verenigt direct vijf navigatietaken in !!n enkel raamwerk:
- het opvolgen van instructies in natuurlijke taal;
- navigatie naar een specifiek punt of object;
- het volgen van bewegende doelen;
- autonoom rijden;
- het beantwoorden van vragen binnen een fysieke omgeving (Embodied Question Answering).
Het model maakt gebruik van gestuurde codering van observaties en een speciale interface voor tools, waardoor een overkoepelende planner (zoals Qwen3.7) dynamisch kan schakelen tussen werkmodi en de context kan beheren.
De resultaten spreken voor zich: een slagingspercentage van 76,5% op VLN-CE RxR, 75,6% op HM3Dv2 (navigatie naar objecten, uitsluitend op basis van RGB-beelden) en 91,4 PDMS op NAVSIM (closed-loop autonoom rijden). Het model is inmiddels succesvol getest op een fysieke viervoetige robot, de Unitree Go2, uitgerust met slechts !!n camera met lage resolutie.
Qwen-RobotManip — manipulatie en interactie
Dit is het meest volwassen en krachtige model binnen de hele suite. Het is gebouwd op de basis van Qwen3.5-4B met een actie-interface gebaseerd op flow-matching DiT en introduceert een uniforme 80-dimensionale status- en actieruimte met delta-posities in het coördinatensysteem van de camera. Deze aanpak maakt het mogelijk om effectief te trainen op gegevens van verschillende typen robots (enkelarmig, dubbelarmig, zeer behendige handen, mobiele platforms) zonder dat er conflicten in de data ontstaan.
Een cruciaal aspect is de schaal en kwaliteit van de training: meer dan 38.100 uur aan open data, waaronder echte opnames van robotwerkzaamheden, egocentrische video's van mensen en synthetische data die zijn gegenereerd via een 'mens-naar-robot' conversie-pipeline.
De resultaten op benchmarks zijn als volgt:
- 91,4% op LIBERO-Plus (7 procentpunten hoger dan de vorige beste score);
- de 1e plaats in het algemeen klassement van RoboChallenge Table30 v1 (een succespercentage van 45%, waarmee het de nummer drie met 20% voorblijft);
- sterke prestaties op RoboTwin, RoboCasa, EBench en andere tests, vooral in out-of-distribution scenario's en bij de overdracht van vaardigheden tussen verschillende robottypen zonder extra training.
Het model vertoont emergente eigenschappen: weerstand tegen externe verstoringen, herstel na fouten, het uitvoeren van open-einde instructies en de overdracht van vaardigheden tussen uiteenlopende robots.
Qwen-RobotWorld — wereldmodel en toekomstvoorspelling
Dit is een taalgestuurd video-wereldmodel dat op basis van een huidige waarneming en een tekstinstructie een fysiek geloofwaardige toekomstige staat van de sc'ene genereert. Het model is getraind op 8,6 miljoen 'video-tekst' paren (meer dan 200 miljoen frames) en beschikt over een diepgaand begrip van fysica, zoals bewegingswetten, behoud van massa en het gedrag van vloeistoffen.
Het model behaalt de eerste plaats op EWMBench, DreamGen Bench, WorldModelBench (onder de open modellen) en PBBench. Bijzonder waardevol is de mogelijkheid tot nauwkeurige taalbesturing en de consistente generatie vanuit verschillende camerapunten.
Qwen-RobotClaw — de integratielaag
Een belangrijke aanvullende component is Qwen-RobotClaw, een interne toolkit voor robotische agenten. Hiermee kunnen reguliere visueel-lingu'istische Qwen-agenten de modellen uit de Robot Suite aanroepen als tools voor de fysieke wereld, waarbij context en geheugen worden beheerd tijdens de uitvoering van langdurige taken.
Het is precies deze laag die de drie fundamentele modellen transformeert tot een samenhangend systeem voor agenten die in de fysieke wereld opereren.
De modellen worden momenteel al proefsgewijs gebruikt door geselecteerde zakelijke klanten van Alibaba Cloud binnen de roboticasector.
Repositories op GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip en andere) en technische rapporten zijn inmiddels gepubliceerd. De modellen zijn beschikbaar via het Qwen-ecosysteem, inclusief het platform Hugging Face. De volledige gewichten en gedetailleerde integratie-instructies worden binnenkort verwacht.




