2026年5月,国内具身智能领域迎来重要技术突破。自变量机器人(X Square Robot)正式宣布开源其最新研发的 VLA(视觉-语言-动作)模型 Wall-OSS-0.5,该模型打破了行业长期以来依赖“考前微调”的传统范式,实现了未经任务特定微调即可在真实机器人上进行“零样本”部署的突破。

行业破局:从“定制脚本”到“通用大脑”
长期以来,具身智能领域存在一个心照不宣的困境:大多数模型在发布测试成绩前,都需要针对特定任务进行大规模的微调(Fine-tuning)。这导致业界难以界定模型是真正具备了“通用大脑”的泛化能力,还是仅仅掌握了特定岗位的“操作脚本”。
自变量机器人通过 Wall-OSS-0.5给出了全新的回答。该模型在超过20种机器人形态、百万条轨迹数据以及9000万条多模态语料库上完成预训练。在不对其进行任何针对性任务微调的情况下,团队直接将其部署在真实机器人上,测试涵盖了语义理解、刚性/柔性物体操作及精细化操作等17个挑战性任务。
核心亮点:预训练模型的性能飞跃
测试数据显示,Wall-OSS-0.5的表现远超预期:
零样本部署能力: 在未经微调的情况下,400k 预训练步数的模型版本在17个零样本任务中,有4个任务得分超过80分(满分100),甚至在“绳子收紧”这一从未在预训练中出现过的柔性物体任务中也取得了82分。
微调上限显著提升: 在需要针对性微调的场景中,Wall-OSS-0.5展现了极高的学习效率。对比行业标杆 π0.5,在同等数据预算下,Wall-OSS-0.5的平均任务进度领先17.5分,并在精细化操作任务(如精密插入)中表现出近乎一个数量级的成功率提升。
“能力重塑”而非退化: 实验证明,该模型在高强度动作训练后,其多模态感知能力不仅未受损,反而在视觉定位和推理能力上获得了“重塑式”进化。
四项关键技术构建护城河
Wall-OSS-0.5的出色表现得益于团队的四项底层技术创新:
梯度桥接(Gradient Bridging): 将动作监督信号直接强行注入预训练主干,使模型在底层表征上统一了“看、说、动”。
视觉对齐 Tokenizer: 确保每一个动作 Token 都承载了明确的视觉语义,赋予了模型真正的“物理含义”推演能力。
动作空间监督: 将训练重心聚焦于轨迹的整体结构而非琐碎的高频细节,极大提升了收敛效率。
DMuon 分布式优化: 研发团队通过底层系统优化,将异构计算开销降低了100倍,使得这种复杂的训练配方在大规模集群上具备了实际落地可能。
具身智能的里程碑
目前,自变量机器人已将 Wall-OSS-0.5的相关模型权重、训练代码及数据集接口全栈开源。
行业分析人士指出,Wall-OSS-0.5的出现不仅是单纯的模型更新,它重新定义了具身智能的开发范式,即从单纯追求“单项任务的成功率”转向“通用物理直觉的迁移”。对于广大研究者和开发者而言,这标志着具身智能基座模型正式进入“可复现、可验证、可挑战”的新阶段,将极大地加速通用机器人在复杂真实环境中的落地步伐。