Tongyi Lab, jednostka badawcza firmy Alibaba, zaprezentowała Qwen Robot Suite – pierwszą serię wyspecjalizowanych modeli zaprojektowanych z myślą o funkcjonowaniu w świecie fizycznym. Nie jest to jedynie kolejna aktualizacja modeli multimodalnych, lecz systemowe przejście od chatbotów rozumiejących otoczenie w stronę agentów fizycznych, zdolnych do percepcji otoczenia, planowania działań i ich realizacji w czasie rzeczywistym.
Premiera obejmuje trzy modele fundamentalne:
- Qwen-RobotNav — nawigacja i poruszanie się w przestrzeni fizycznej;
- Qwen-RobotManip — manipulowanie obiektami i interakcja z otoczeniem;
- Qwen-RobotWorld — przewidywanie dynamiki scen i przyszłego stanu świata.
Wszystkie modele oparto na rodzinie Qwen (głównie modelach wizualno-językowych Qwen3-VL i Qwen3.5), wytrenowano wyłącznie na otwartych danych i są one już przedmiotem wdrożeń pilotażowych u klientów Alibaba Cloud.
Dlaczego to ważne: luka między zrozumieniem a działaniem
Modele Qwen od dawna wykazują się wysokim stopniem zrozumienia świata fizycznego: rozpoznają obiekty, relacje przestrzenne, instrukcje oraz związki przyczynowo-skutkowe. Jednak między zrozumieniem a rzeczywistym działaniem pozostawała fundamentalna przepaść – rozdźwięk między reprezentacjami językowo-wizualnymi a komendami sterującymi robotem.
Qwen Robot Suite rozwiązuje właśnie ten problem, tworząc wyspecjalizowane „pomosty” między percepcją a działaniem w trzech kluczowych obszarach: mobilności, manipulacji i przewidywaniu dynamiki świata.
Qwen-RobotNav — nawigacja i mobilność
Model ten integruje pięć różnych zadań nawigacyjnych w ramach jednej struktury:
- wykonywanie poleceń wydawanych w języku naturalnym;
- nawigacja do wyznaczonego punktu lub obiektu;
- śledzenie ruchomych celów;
- autonomiczne prowadzenie pojazdów;
- odpowiadanie na pytania w środowisku fizycznym (Embodied Question Answering).
Wykorzystuje on sterowane kodowanie obserwacji oraz specjalny interfejs narzędziowy, który umożliwia nadrzędnemu planiście (np. Qwen3.7) na dynamiczne przełączanie trybów pracy i zarządzanie kontekstem.
Wyniki: 76,5% skuteczności w teście VLN-CE RxR, 75,6% w HM3Dv2 (nawigacja do obiektu przy użyciu wyłącznie obrazów RGB) oraz 91,4 PDMS w NAVSIM (autonomiczna jazda w pętli zamkniętej). Model został już z powodzeniem przetestowany na rzeczywistym robocie czworonożnym Unitree Go2 wyposażonym w jedną kamerę o niskiej rozdzielczości.
Qwen-RobotManip — manipulacja i interakcja
Jest to najbardziej dojrzały i zaawansowany model w całym zestawie. Zbudowano go na bazie Qwen3.5-4B z modułem decyzyjnym opartym na architekturze flow-matching DiT, wprowadzając ujednoliconą 80-wymiarową przestrzeń stanów i działań z pozycjami delta w układzie współrzędnych kamery. Takie podejście pozwala na efektywne uczenie się na danych pochodzących z różnych typów robotów (jednoręcznych, dwuręcznych, z dłońmi o wysokiej zręczności, platform mobilnych) bez konfliktów w zbiorach treningowych.
Kluczowym elementem jest skala i jakość szkolenia: wykorzystano ponad 38 100 godzin otwartych danych, w tym realne nagrania pracy robotów, filmy egocentryczne z perspektywy człowieka oraz dane syntetyczne wygenerowane przez system konwersji „człowiek-robot”.
Wyniki w testach benchmarkowych:
- 91,4% w LIBERO-Plus (o 7 punktów procentowych lepiej od poprzedniego rekordu);
- 1. miejsce w klasyfikacji ogólnej RoboChallenge Table30 v1 (45% skuteczności, o 20% wyprzedzając trzecie miejsce);
- wysokie noty w testach RoboTwin, RoboCasa, EBench i innych, szczególnie w scenariuszach spoza zbioru treningowego oraz przy transferze umiejętności między różnymi robotami bez dodatkowego douczania.
Model wykazuje cechy emergente: odporność na zakłócenia zewnętrzne, zdolność do naprawy błędów, wykonywanie otwartych instrukcji i przenoszenie umiejętności między różnymi typami robotów.
Qwen-RobotWorld — model świata i przewidywanie przyszłości
Jest to warunkowany językowo wideo-model świata, który na podstawie bieżącej obserwacji i instrukcji tekstowej generuje wiarygodny fizycznie przyszły stan sceny. Model przeszkolono na 8,6 mln par „wideo-tekst” (ponad 200 mln klatek), dzięki czemu doskonale rozumie on fizykę (prawa ruchu, zasadę zachowania masy, zachowanie płynów itp.).
Zajmuje on czołowe miejsca w rankingach EWMBench, DreamGen Bench, WorldModelBench (wśród modeli otwartych) oraz PBBench. Wyjątkowo cenną funkcją jest możliwość precyzyjnego sterowania językowego oraz spójna generacja widoku z różnych perspektyw.
Qwen-RobotClaw — warstwa integracyjna
Ważnym elementem uzupełniającym jest Qwen-RobotClaw, czyli wewnętrzne oprzyrządowanie dla agentów robotycznych. Pozwala ono standardowym agentom wizualno-językowym Qwen wywoływać modele z pakietu Robot Suite jako narzędzia w świecie fizycznym, zarządzając kontekstem i pamięcią podczas realizacji długofalowych zadań.
To właśnie ta warstwa scala trzy fundamentalne modele w spójny system dla agentów działających w rzeczywistości fizycznej.
Modele są już wdrażane pilotażowo u wybranych klientów korporacyjnych Alibaba Cloud działających w sektorze robotyki.
Udostępniono repozytoria w serwisie GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip i inne) oraz raporty techniczne. Modele są dostępne poprzez ekosystem Qwen, w tym na platformie Hugging Face. Pełne wagi modeli oraz szczegółowe instrukcje dotyczące integracji zostaną opublikowane w najbliższej przyszłości.




