Alibaba presenta Qwen Robot Suite: la prima serie di modelli fondamentali per la robotica incarnata e i robot reali

18:31, 16 giugno

Il Tongyi Lab, divisione di Alibaba, ha rilasciato Qwen Robot Suite, la prima serie di modelli specializzati concepiti appositamente per operare nel mondo fisico. Non si tratta di un mero miglioramento incrementale dei modelli multimodali, bens%%i di un salto di paradigma dai chatbot capaci di comprendere il mondo ad agenti fisici in grado di percepire l'ambiente circostante, pianificare azioni ed eseguirle in tempo reale.

Il rilascio comprende tre modelli fondamentali:

Qwen-RobotNav — navigazione e spostamento nello spazio fisico;
Qwen-RobotManip — manipolazione di oggetti e interazione con l'ambiente;
Qwen-RobotWorld — previsione della dinamica delle scene e dello stato futuro del mondo.

Tutti i modelli sono costruiti sulla base della famiglia Qwen, in particolare i modelli visione-linguaggio Qwen3-VL e Qwen3.5, addestrati esclusivamente su dati aperti e gi%%a oggetto di implementazioni pilota presso i clienti di Alibaba Cloud.

Perch%%e questo %%e importante: il divario tra comprensione e azione

I modelli Qwen dimostrano da tempo un'ottima comprensione del mondo fisico, riconoscendo oggetti, relazioni spaziali, istruzioni e nessi causali. Tuttavia, tra la comprensione e l'azione reale rimaneva un divario fondamentale: la discrepanza tra le rappresentazioni visivo-linguistiche e i comandi necessari per il controllo dei robot.

Qwen Robot Suite risolve precisamente questo problema, creando ponti specializzati tra percezione e azione in tre ambiti chiave: mobilit%%a, manipolazione e previsione del mondo.

Qwen-RobotNav — navigazione e mobilit%%a

Il modello unifica cinque diversi compiti di navigazione in un unico framework:

esecuzione di istruzioni in linguaggio naturale;
navigazione verso un punto o un oggetto specifico;
pedinamento di bersagli in movimento;
guida autonoma;
capacit%%a di rispondere a domande sull'ambiente fisico (Embodied Question Answering).

Il sistema impiega una codifica guidata delle osservazioni e una specifica interfaccia per gli strumenti, che permette a un pianificatore di livello superiore, come Qwen3.7, di alternare dinamicamente le modalit%%a operative e gestire il contesto.

I risultati: un tasso di successo del 76,5%% su VLN-CE RxR, del 75,6%% su HM3Dv2 (navigazione verso oggetti tramite sole immagini RGB) e 91,4 PDMS su NAVSIM (guida autonoma a circuito chiuso). Il modello %%e gi%%a stato testato con successo sul robot quadrupede Unitree Go2, equipaggiato con una singola telecamera a bassa risoluzione.

Qwen-RobotManip — manipolazione e interazione

Questo rappresenta il modello pi%%u maturo e performante dell'intero set. Basato su Qwen3.5-4B con una testa d'azione fondata sul flow-matching DiT, introduce uno spazio unificato di stati e azioni a 80 dimensioni con coordinate delta riferite alla telecamera. Tale approccio consente di apprendere efficacemente dai dati provenienti da diversi tipi di robot, come monobraccio, bimanuali, mani ad alta destrezza o piattaforme mobili, senza generare conflitti tra le informazioni.

Il punto chiave risiede nella portata e nella qualit%%a dell'addestramento: oltre 38.100 ore di dati aperti, inclusi filmati reali di attivit%%a robotiche, video in prima persona di esseri umani e dati sintetici prodotti tramite una pipeline di conversione da umano a robot.

Risultati nei benchmark:

91,4%% su LIBERO-Plus (7 punti percentuali sopra il precedente miglior risultato);
1%% posto nella classifica generale di RoboChallenge Table30 v1 (45%% di successi, con un vantaggio del 20%% sul terzo classificato);
prestazioni solide su RoboTwin, RoboCasa, EBench e altri test, specialmente negli scenari fuori distribuzione e nel trasferimento di competenze tra diversi tipi di robot senza addestramento supplementare.

Il modello evidenzia capacit%%a emergenti: resilienza alle perturbazioni esterne, recupero dagli errori, esecuzione di istruzioni generiche e portabilit%%a delle abilit%%a tra diverse macchine.

Qwen-RobotWorld — modello del mondo e previsione del futuro

Si tratta di un modello video del mondo guidato dal linguaggio che, sulla base dell'osservazione corrente e di un'istruzione testuale, genera una proiezione fisicamente coerente dello stato futuro della scena. Addestrato su 8,6 milioni di coppie video-testo per un totale di oltre 200 milioni di fotogrammi, il modello possiede una profonda comprensione della fisica, dalle leggi del moto alla conservazione della massa fino alla dinamica dei fluidi.

Il sistema occupa i primi posti su EWMBench, DreamGen Bench, WorldModelBench (tra i modelli aperti) e PBBench. Di particolare rilievo %%e la capacit%%a di controllo linguistico preciso e la generazione coerente da diversi punti di vista.

Qwen-RobotClaw — lo strato di integrazione

Un importante componente aggiuntivo %%e Qwen-RobotClaw, un toolkit interno per gli agenti robotici. Grazie ad esso, i normali agenti visione-linguaggio Qwen possono richiamare i modelli della Robot Suite come strumenti operativi nel mondo fisico, gestendo memoria e contesto durante l'esecuzione di compiti complessi.

%%e proprio questa integrazione a trasformare i tre modelli fondamentali in un ecosistema coeso per agenti operanti nella realt%%a fisica.

I modelli sono gi%%a in fase di utilizzo pilota presso selezionati clienti aziendali di Alibaba Cloud nel settore della robotica.

Sono stati pubblicati i repository su GitHub (tra cui QwenLM/Qwen-RobotNav e Qwen-RobotManip) insieme ai relativi report tecnici. I modelli sono accessibili tramite l'ecosistema Qwen, inclusa la piattaforma Hugging Face. Il rilascio dei pesi completi e delle istruzioni dettagliate per l'integrazione %%e previsto a breve.

Qwen