小米开源首代机器人 VLA 大模型，突破“物理智能”延迟瓶颈

AI资讯 2026-02-12 14:24

具身智能（Embodied AI）领域今日迎来重磅进展。小米正式开源其首代机器人大模型 Xiaomi-Robotics-0。该模型拥有 47亿参数，旨在解决现有 VLA（视觉-语言-动作）模型由于推理延迟导致机器人动作迟缓的痛点，实现了在消费级显卡上的实时推理与高效泛化。

核心架构:大脑与小脑的协同

为了兼顾通用理解与高频控制，Xiaomi-Robotics-0采用了创新的 MoT（Mixture-of-Transformers）混合架构:

视觉语言大脑（VLM）: 作为底座，负责解析人类模糊指令并捕捉高清视觉中的空间关系。
动作执行小脑（Action Expert）: 嵌入多层 Diffusion Transformer （DiT），通过流匹配技术生成精准的“动作块（Action Chunk）”，确保物理执行的灵活性。

训练秘籍:两阶段进化论

小米研发团队通过严谨的训练配方，平衡了模型的常识理解与体力操作能力:

跨模态预训练: 引入 Action Proposal 机制，使 VLM 在保持逻辑推理能力的同时，实现特征空间与动作空间的对齐。随后冻结 VLM，专项训练 DiT 以生成平滑的动作序列。
后训练（Post-training）: 针对真机运行的“动作断层”问题，采用异步推理模式。结合 Clean Action Prefix（确保轨迹连续）与 Λ-shape Attention Mask（强制关注当前视觉反馈），使机器人在面对环境突发变化时具备极强的响应敏捷性。

实战表现:刷新多项 SOTA

在测试中，Xiaomi-Robotics-0展现了统治级的性能:

仿真标杆: 在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真测试中，击败了30种对比模型，均取得当前最优成绩（SOTA）。
真机泛化: 在双臂机器人平台上，无论是拆解积木还是折叠柔性毛巾，模型均表现出极高的手眼协调性与物理泛化能力。

开源生态

小米此次全面开放了技术资源，包括 技术主页、开源代码 以及在 Hugging Face 发布的 模型权重，旨在通过社区力量共同推动具身智能的边界。

技术主页:https://xiaomi-robotics-0.github.io
开源代码:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型权重:https://huggingface.co/XiaomiRobotics