具身智能(Embodied AI)领域今日迎来重磅进展。小米正式开源其首代机器人大模型 Xiaomi-Robotics-0。该模型拥有 47亿参数,旨在解决现有 VLA(视觉-语言-动作)模型由于推理延迟导致机器人动作迟缓的痛点,实现了在消费级显卡上的实时推理与高效泛化。

QQ20260212-141446.png

核心架构:大脑与小脑的协同

为了兼顾通用理解与高频控制,Xiaomi-Robotics-0采用了创新的 MoT(Mixture-of-Transformers)混合架构:

训练秘籍:两阶段进化论

小米研发团队通过严谨的训练配方,平衡了模型的常识理解与体力操作能力:

  1. 跨模态预训练: 引入 Action Proposal 机制,使 VLM 在保持逻辑推理能力的同时,实现特征空间与动作空间的对齐。随后冻结 VLM,专项训练 DiT 以生成平滑的动作序列。

  2. 后训练(Post-training): 针对真机运行的“动作断层”问题,采用异步推理模式。结合 Clean Action Prefix(确保轨迹连续)与 Λ-shape Attention Mask(强制关注当前视觉反馈),使机器人在面对环境突发变化时具备极强的响应敏捷性。

QQ20260212-142413.png

实战表现:刷新多项 SOTA

在测试中,Xiaomi-Robotics-0展现了统治级的性能:

开源生态

小米此次全面开放了技术资源,包括 技术主页开源代码 以及在 Hugging Face 发布的 模型权重,旨在通过社区力量共同推动具身智能的边界。