Alibaba ra mắt Qwen Robot Suite: Dòng mô hình nền tảng đầu tiên cho AI hiện thân và robot thực tế

18:31, 16 tháng 6

Phòng thí nghiệm Tongyi Lab (một đơn vị thuộc Alibaba) vừa chính thức trình làng Qwen Robot Suite — loạt mô hình chuyên biệt đầu tiên được thiết kế dành riêng cho các hoạt động trong thế giới vật lý. Đây không chỉ đơn thuần là một bản nâng cấp khác của các mô hình đa phương thức, mà là một bước chuyển mình mang tính hệ thống từ những chatbot chỉ hiểu biết về thế giới sang các tác nhân vật lý có khả năng tri giác môi trường xung quanh, lập kế hoạch hành động và thực thi chúng trong thời gian thực.

Bản phát hành lần này bao gồm ba mô hình nền tảng cốt lõi:

Qwen-RobotNav — đảm nhiệm việc dẫn đường và di chuyển trong không gian vật lý;
Qwen-RobotManip — thực hiện các thao tác với vật thể và tương tác với môi trường xung quanh;
Qwen-RobotWorld — dự báo động lực học của khung cảnh và trạng thái tương lai của thế giới.

Tất cả các mô hình này đều được xây dựng trên nền tảng dòng Qwen (chủ yếu là các mô hình thị giác-ngôn ngữ Qwen3-VL và Qwen3.5), được huấn luyện hoàn toàn dựa trên dữ liệu mở và hiện đang được triển khai thử nghiệm cho các khách hàng của Alibaba Cloud.

Tại sao điều này lại quan trọng: Thu hẹp khoảng cách giữa hiểu biết và hành động

Các mô hình Qwen từ lâu đã thể hiện khả năng am hiểu sâu sắc về thế giới vật lý, từ việc nhận diện vật thể, các mối quan hệ không gian cho đến việc thấu hiểu các chỉ dẫn và quan hệ nhân quả. Tuy nhiên, giữa sự hiểu biết lý thuyết và hành động thực tế vẫn tồn tại một khoảng cách cơ bản — đó là sự không tương thích giữa các biểu diễn ngôn ngữ-thị giác và các lệnh điều khiển robot trực tiếp.

Qwen Robot Suite giải quyết chính xác bài toán này bằng cách tạo ra các "cầu nối" chuyên dụng giữa nhận thức và hành động trong ba lĩnh vực then chốt: tính di động, thao tác vật thể và dự báo thế giới.

Qwen-RobotNav — Dẫn đường và tính di động

Mô hình này tích hợp đồng thời năm nhiệm vụ dẫn đường quan trọng vào trong một khung làm việc duy nhất:

tuân thủ các chỉ dẫn bằng ngôn ngữ tự nhiên;
dẫn đường đến một điểm đến hoặc vật thể được chỉ định;
theo dõi các mục tiêu đang di chuyển;
tự hành hoàn toàn;
trả lời các câu hỏi trong môi trường vật lý (Embodied Question Answering).

Mô hình sử dụng phương thức mã hóa quan sát có kiểm soát cùng một giao diện công cụ đặc biệt, cho phép bộ lập kế hoạch cấp cao (ví dụ như Qwen3.7) chuyển đổi linh hoạt các chế độ hoạt động và quản lý ngữ cảnh một cách hiệu quả.

Kết quả đạt được rất ấn tượng: tỷ lệ thành công 76,5% trên VLN-CE RxR, 75,6% trên HM3Dv2 (dẫn đường đến vật thể chỉ dùng hình ảnh RGB) và 91,4 PDMS trên NAVSIM (tự hành vòng kín). Mô hình cũng đã được thử nghiệm thành công trên robot bốn chân thực tế Unitree Go2 chỉ với một camera độ phân giải thấp duy nhất.

Qwen-RobotManip — Thao tác và tương tác vật thể

Đây được coi là mô hình hoàn thiện và mạnh mẽ nhất trong toàn bộ bộ công cụ này. Nó được xây dựng trên nền tảng Qwen3.5-4B với đầu ra hành động dựa trên flow-matching DiT, đồng thời giới thiệu một không gian trạng thái và hành động 80 chiều thống nhất với các vị trí delta trong hệ tọa độ camera. Cách tiếp cận này cho phép hệ thống học tập hiệu quả từ dữ liệu của nhiều loại robot khác nhau (robot một tay, hai tay, tay có độ khéo léo cao, các nền tảng di động) mà không xảy ra xung đột dữ liệu.

Điểm mấu chốt nằm ở quy mô và chất lượng huấn luyện: hơn 38.100 giờ dữ liệu mở, bao gồm các bản ghi thực tế về hoạt động của robot, video góc nhìn thứ nhất của con người và dữ liệu tổng hợp được tạo ra thông qua quy trình chuyển đổi "người sang robot".

Các kết quả đạt được trên các bài kiểm tra chuẩn (benchmarks):

91,4% trên LIBERO-Plus (cao hơn 7 điểm phần trăm so với kết quả tốt nhất trước đó);
Đạt vị trí số 1 trong bảng xếp hạng chung RoboChallenge Table30 v1 (với 45% tỷ lệ thành công, vượt xa vị trí thứ ba tới 20%);
Đạt chỉ số mạnh mẽ trên RoboTwin, RoboCasa, EBench và các bài kiểm tra khác, đặc biệt là trong các kịch bản nằm ngoài dữ liệu huấn luyện và khi chuyển đổi kỹ năng giữa các loại robot khác nhau mà không cần đào tạo lại.

Mô hình này còn thể hiện các đặc tính mới phát sinh (emergent properties): khả năng chống chịu với các nhiễu động bên ngoài, tự phục hồi sau lỗi, thực hiện các chỉ dẫn mở và chuyển giao kỹ năng linh hoạt giữa các nền tảng robot khác nhau.

Qwen-RobotWorld — Mô hình thế giới và dự báo tương lai

Đây là một mô hình thế giới dạng video dựa trên điều kiện ngôn ngữ, có khả năng tạo ra trạng thái tương lai hợp lý về mặt vật lý của một khung cảnh dựa trên quan sát hiện tại và chỉ dẫn bằng văn bản. Mô hình được huấn luyện trên 8,6 triệu cặp "video - văn bản" (tương đương hơn 200 triệu khung hình) và thấu hiểu sâu sắc các quy luật vật lý (luật chuyển động, bảo toàn khối lượng, hành vi của chất lỏng, v.v.).

Mô hình hiện đang dẫn đầu trên các bảng xếp hạng EWMBench, DreamGen Bench, WorldModelBench (trong số các mô hình mở) và PBBench. Đặc biệt giá trị là khả năng điều khiển chính xác bằng ngôn ngữ và tạo ra hình ảnh nhất quán từ nhiều góc nhìn khác nhau.

Qwen-RobotClaw — Lớp tích hợp hệ thống

Một thành phần bổ sung quan trọng không kém là Qwen-RobotClaw, bộ công cụ nội bộ dành cho các tác nhân robot. Nó cho phép các tác nhân thị giác-ngôn ngữ Qwen thông thường có thể gọi các mô hình trong Robot Suite như những công cụ thực thi trong thế giới vật lý, đồng thời quản lý ngữ cảnh và bộ nhớ khi thực hiện các nhiệm vụ kéo dài.

Chính lớp tích hợp này đã biến ba mô hình nền tảng đơn lẻ thành một hệ thống nhất quán cho các tác nhân hoạt động trong môi trường thực tế.

Hiện tại, các mô hình này đang được đưa vào sử dụng thí điểm bởi một số khách hàng doanh nghiệp tiêu biểu của Alibaba Cloud trong lĩnh vực robot học.

Các kho lưu trữ đã được công khai trên GitHub (QwenLM/Qwen-RobotNav, Qwen-RobotManip và các kho khác) cùng với các báo cáo kỹ thuật chi tiết. Người dùng có thể tiếp cận mô hình thông qua hệ sinh thái Qwen, bao gồm cả nền tảng Hugging Face. Trọng số mô hình đầy đủ và hướng dẫn tích hợp chi tiết dự kiến sẽ sớm được công bố trong thời gian tới.

Qwen