阿里发布Qwen-Robot系列具身大模型:三大模型协同攻克异构机器人适配痛点

6月16日，阿里巴巴正式发布千问具身智能大模型Qwen-Robot系列，该系列由VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav以及世界模型Qwen-RobotWorld三大核心矩阵组成。这一战略动作标志着大厂在具身智能基础模型领域的布局进一步深化，实现了机器人操控、导航与物理规律推理的协同运转。

针对传统VLA模型换硬件、换场景后迁移能力不足的行业痛点，Qwen-RobotManip引入了一套80维的统一动作表征，为不同形态的硬件定义了通用的“肢体语言”，使其在不同设备中仅需数步反馈即可自动适配。负责跑腿认路的VLN模型Qwen-RobotNav则基于Qwen-VL构建，首次将语言指令导航、目标搜索、自动驾驶等五大任务族统一到单一框架中，消除了复杂任务下的模型切换成本。

作为思考大脑的Qwen-RobotWorld则赋予系统物理世界的推理能力，能够预测并模拟下一步的动作与状态。当前具身智能正迈入从单一场景向通用泛化的关键节点，阿里此次三模齐发，通过技术架构的解耦与多模态能力的融合，有望加速异构机器人通用化部署的落地进程。