Alibaba apresenta Qwen Robot Suite: a primeira série de modelos fundamentais para IA incorporada e robôs reais

18:31, 16 junho

O laboratório Tongyi Lab (uma divisão da Alibaba) lançou o Qwen Robot Suite — a primeira série de modelos especializados projetados especificamente para operar no mundo físico. Não se trata apenas de mais uma melhoria em modelos multimodais, mas de uma transição sistêmica de chatbots que compreendem o mundo para agentes físicos capazes de perceber o ambiente, planejar ações e executá-las em tempo real.

O lançamento integra três modelos fundamentais:

Qwen-RobotNav — navegação e deslocamento no espaço físico;
Qwen-RobotManip — manipulação de objetos e interação com o entorno;
Qwen-RobotWorld — previsão da dinâmica de cenas e do estado futuro do mundo.

Todos os modelos foram desenvolvidos com base na família Qwen (principalmente nos modelos visual-linguagem Qwen3-VL e Qwen3.5), treinados exclusivamente com dados abertos e já estão em fase de implementação piloto em clientes da Alibaba Cloud.

Por que isso é importante: a lacuna entre a compreensão e a ação

Os modelos Qwen já demonstram há algum tempo uma excelente compreensão do mundo físico, reconhecendo objetos, relações espaciais, instruções e conexões de causa e efeito. No entanto, ainda existia uma lacuna fundamental entre a compreensão e a ação real — um descompasso entre as representações linguístico-visuais e os comandos de controle do robô.

O Qwen Robot Suite soluciona justamente esse problema, criando "pontes" especializadas entre a percepção e a ação em três áreas cruciais: mobilidade, manipulação e previsão de mundo.

Qwen-RobotNav — navegação e mobilidade

O modelo consolida simultaneamente cinco tarefas de navegação em um framework único:

cumprimento de instruções em linguagem natural;
navegação até um ponto ou objeto específico;
rastreamento de alvos móveis;
condução autônoma;
respostas a perguntas em ambiente físico (Embodied Question Answering).

Ele utiliza uma codificação guiada de observações e uma interface de ferramentas especializadas, o que permite que um planejador de nível superior (como o Qwen3.7) alterne dinamicamente entre modos de operação e gerencie o contexto.

Os resultados impressionam: 76,5% de taxa de sucesso no VLN-CE RxR, 75,6% no HM3Dv2 (navegação para objetos usando apenas imagens RGB) e 91,4 PDMS no NAVSIM (condução autônoma em malha fechada). O modelo já foi testado com êxito em um robô quadrúpede real, o Unitree Go2, utilizando apenas uma câmera de baixa resolução.

Qwen-RobotManip — manipulação e interação

Este é o modelo mais maduro e robusto de todo o conjunto. Baseado no Qwen3.5-4B com uma cabeça de ação fundamentada em flow-matching DiT, ele introduz um espaço unificado de 80 dimensões para estados e ações com posições delta no sistema de coordenadas da câmera. Essa abordagem possibilita o treinamento eficiente com dados de diversos tipos de robôs (braços únicos, duplos, mãos de alta destreza e plataformas móveis) sem que haja conflitos nos dados.

O ponto central é a escala e a qualidade do treinamento: mais de 38.100 horas de dados abertos, incluindo registros reais de operação robótica, vídeos egocêntricos de humanos e dados sintéticos gerados por meio de um processo de conversão "humano-robô".

Resultados em benchmarks:

91,4% no LIBERO-Plus (7 pontos percentuais acima do melhor resultado anterior);
1º lugar na classificação geral do RoboChallenge Table30 v1 (45% de sucesso, superando o terceiro colocado em 20%);
desempenho sólido no RoboTwin, RoboCasa, EBench e outros testes, especialmente em cenários fora da distribuição de treinamento e na transferência de habilidades entre diferentes robôs sem treinamento adicional.

O modelo exibe propriedades emergentes: resistência a perturbações externas, recuperação após erros, execução de instruções abertas e transferência de habilidades entre robôs distintos.

Qwen-RobotWorld — modelo de mundo e previsão do futuro

Trata-se de um modelo de mundo em vídeo condicionado por linguagem que, a partir de uma observação atual e uma instrução em texto, gera um estado futuro da cena fisicamente plausível. Treinado com 8,6 milhões de pares de "vídeo-texto" (mais de 200 milhões de quadros), o modelo demonstra uma compreensão profunda da física (leis do movimento, conservação de massa, comportamento de fluidos, etc.).

Ele ocupa as primeiras posições no EWMBench, DreamGen Bench, WorldModelBench (entre modelos abertos) e PBBench. Destaca-se especialmente a capacidade de controle preciso por linguagem e a geração coerente a partir de diferentes ângulos de visão.

Qwen-RobotClaw — camada de integração

Um componente adicional de extrema importância é o Qwen-RobotClaw, um conjunto de ferramentas internas para agentes robóticos. Ele permite que agentes convencionais de visual-linguagem Qwen acionem os modelos do Robot Suite como ferramentas do mundo físico, gerenciando contexto e memória durante a execução de tarefas de longa duração.

É exatamente essa camada que transforma os três modelos fundamentais em um sistema coeso para agentes que operam no mundo físico.

Os modelos já estão sendo utilizados em caráter piloto por clientes corporativos selecionados da Alibaba Cloud no setor de robótica.

Repositórios no GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip e outros) e relatórios técnicos foram publicados. Os modelos estão disponíveis através do ecossistema Qwen, incluindo a plataforma Hugging Face. Espera-se que os pesos completos e as instruções detalhadas de integração sejam disponibilizados em breve.

Qwen