Alibaba prezentuje Qwen Robot Suite: pierwsza seria fundamentalnych modeli dla ucieleśnionej sztucznej inteligencji i robotyki

18:31, 16 czerwca

Tongyi Lab, jednostka badawcza firmy Alibaba, zaprezentowała Qwen Robot Suite – pierwszą serię wyspecjalizowanych modeli zaprojektowanych z myślą o funkcjonowaniu w świecie fizycznym. Nie jest to jedynie kolejna aktualizacja modeli multimodalnych, lecz systemowe przejście od chatbotów rozumiejących otoczenie w stronę agentów fizycznych, zdolnych do percepcji otoczenia, planowania działań i ich realizacji w czasie rzeczywistym.

Premiera obejmuje trzy modele fundamentalne:

Qwen-RobotNav — nawigacja i poruszanie się w przestrzeni fizycznej;
Qwen-RobotManip — manipulowanie obiektami i interakcja z otoczeniem;
Qwen-RobotWorld — przewidywanie dynamiki scen i przyszłego stanu świata.

Wszystkie modele oparto na rodzinie Qwen (głównie modelach wizualno-językowych Qwen3-VL i Qwen3.5), wytrenowano wyłącznie na otwartych danych i są one już przedmiotem wdrożeń pilotażowych u klientów Alibaba Cloud.

Dlaczego to ważne: luka między zrozumieniem a działaniem

Modele Qwen od dawna wykazują się wysokim stopniem zrozumienia świata fizycznego: rozpoznają obiekty, relacje przestrzenne, instrukcje oraz związki przyczynowo-skutkowe. Jednak między zrozumieniem a rzeczywistym działaniem pozostawała fundamentalna przepaść – rozdźwięk między reprezentacjami językowo-wizualnymi a komendami sterującymi robotem.

Qwen Robot Suite rozwiązuje właśnie ten problem, tworząc wyspecjalizowane „pomosty” między percepcją a działaniem w trzech kluczowych obszarach: mobilności, manipulacji i przewidywaniu dynamiki świata.

Qwen-RobotNav — nawigacja i mobilność

Model ten integruje pięć różnych zadań nawigacyjnych w ramach jednej struktury:

wykonywanie poleceń wydawanych w języku naturalnym;
nawigacja do wyznaczonego punktu lub obiektu;
śledzenie ruchomych celów;
autonomiczne prowadzenie pojazdów;
odpowiadanie na pytania w środowisku fizycznym (Embodied Question Answering).

Wykorzystuje on sterowane kodowanie obserwacji oraz specjalny interfejs narzędziowy, który umożliwia nadrzędnemu planiście (np. Qwen3.7) na dynamiczne przełączanie trybów pracy i zarządzanie kontekstem.

Wyniki: 76,5% skuteczności w teście VLN-CE RxR, 75,6% w HM3Dv2 (nawigacja do obiektu przy użyciu wyłącznie obrazów RGB) oraz 91,4 PDMS w NAVSIM (autonomiczna jazda w pętli zamkniętej). Model został już z powodzeniem przetestowany na rzeczywistym robocie czworonożnym Unitree Go2 wyposażonym w jedną kamerę o niskiej rozdzielczości.

Qwen-RobotManip — manipulacja i interakcja

Jest to najbardziej dojrzały i zaawansowany model w całym zestawie. Zbudowano go na bazie Qwen3.5-4B z modułem decyzyjnym opartym na architekturze flow-matching DiT, wprowadzając ujednoliconą 80-wymiarową przestrzeń stanów i działań z pozycjami delta w układzie współrzędnych kamery. Takie podejście pozwala na efektywne uczenie się na danych pochodzących z różnych typów robotów (jednoręcznych, dwuręcznych, z dłońmi o wysokiej zręczności, platform mobilnych) bez konfliktów w zbiorach treningowych.

Kluczowym elementem jest skala i jakość szkolenia: wykorzystano ponad 38 100 godzin otwartych danych, w tym realne nagrania pracy robotów, filmy egocentryczne z perspektywy człowieka oraz dane syntetyczne wygenerowane przez system konwersji „człowiek-robot”.

Wyniki w testach benchmarkowych:

91,4% w LIBERO-Plus (o 7 punktów procentowych lepiej od poprzedniego rekordu);
1. miejsce w klasyfikacji ogólnej RoboChallenge Table30 v1 (45% skuteczności, o 20% wyprzedzając trzecie miejsce);
wysokie noty w testach RoboTwin, RoboCasa, EBench i innych, szczególnie w scenariuszach spoza zbioru treningowego oraz przy transferze umiejętności między różnymi robotami bez dodatkowego douczania.

Model wykazuje cechy emergente: odporność na zakłócenia zewnętrzne, zdolność do naprawy błędów, wykonywanie otwartych instrukcji i przenoszenie umiejętności między różnymi typami robotów.

Qwen-RobotWorld — model świata i przewidywanie przyszłości

Jest to warunkowany językowo wideo-model świata, który na podstawie bieżącej obserwacji i instrukcji tekstowej generuje wiarygodny fizycznie przyszły stan sceny. Model przeszkolono na 8,6 mln par „wideo-tekst” (ponad 200 mln klatek), dzięki czemu doskonale rozumie on fizykę (prawa ruchu, zasadę zachowania masy, zachowanie płynów itp.).

Zajmuje on czołowe miejsca w rankingach EWMBench, DreamGen Bench, WorldModelBench (wśród modeli otwartych) oraz PBBench. Wyjątkowo cenną funkcją jest możliwość precyzyjnego sterowania językowego oraz spójna generacja widoku z różnych perspektyw.

Qwen-RobotClaw — warstwa integracyjna

Ważnym elementem uzupełniającym jest Qwen-RobotClaw, czyli wewnętrzne oprzyrządowanie dla agentów robotycznych. Pozwala ono standardowym agentom wizualno-językowym Qwen wywoływać modele z pakietu Robot Suite jako narzędzia w świecie fizycznym, zarządzając kontekstem i pamięcią podczas realizacji długofalowych zadań.

To właśnie ta warstwa scala trzy fundamentalne modele w spójny system dla agentów działających w rzeczywistości fizycznej.

Modele są już wdrażane pilotażowo u wybranych klientów korporacyjnych Alibaba Cloud działających w sektorze robotyki.

Udostępniono repozytoria w serwisie GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip i inne) oraz raporty techniczne. Modele są dostępne poprzez ekosystem Qwen, w tym na platformie Hugging Face. Pełne wagi modeli oraz szczegółowe instrukcje dotyczące integracji zostaną opublikowane w najbliższej przyszłości.

Qwen