国产具身大模型 Wall-OSS-0.5 重磅开源：预训练即可“零样本”部署

2026年5月，国内具身智能领域迎来重要技术突破。自变量机器人（X Square Robot）正式宣布开源其最新研发的 VLA(视觉-语言-动作)模型 Wall-OSS-0.5，该模型打破了行业长期以来依赖“考前微调”的传统范式，实现了未经任务特定微调即可在真实机器人上进行“零样本”部署的突破。

大模型元宇宙 (1)

行业破局:从“定制脚本”到“通用大脑”

长期以来，具身智能领域存在一个心照不宣的困境:大多数模型在发布测试成绩前，都需要针对特定任务进行大规模的微调（Fine-tuning）。这导致业界难以界定模型是真正具备了“通用大脑”的泛化能力，还是仅仅掌握了特定岗位的“操作脚本”。

自变量机器人通过 Wall-OSS-0.5给出了全新的回答。该模型在超过20种机器人形态、百万条轨迹数据以及9000万条多模态语料库上完成预训练。在不对其进行任何针对性任务微调的情况下，团队直接将其部署在真实机器人上，测试涵盖了语义理解、刚性/柔性物体操作及精细化操作等17个挑战性任务。

核心亮点:预训练模型的性能飞跃

测试数据显示，Wall-OSS-0.5的表现远超预期:

零样本部署能力: 在未经微调的情况下，400k 预训练步数的模型版本在17个零样本任务中，有4个任务得分超过80分（满分100），甚至在“绳子收紧”这一从未在预训练中出现过的柔性物体任务中也取得了82分。
微调上限显著提升: 在需要针对性微调的场景中，Wall-OSS-0.5展现了极高的学习效率。对比行业标杆 π0.5，在同等数据预算下，Wall-OSS-0.5的平均任务进度领先17.5分，并在精细化操作任务（如精密插入）中表现出近乎一个数量级的成功率提升。
“能力重塑”而非退化: 实验证明，该模型在高强度动作训练后，其多模态感知能力不仅未受损，反而在视觉定位和推理能力上获得了“重塑式”进化。

四项关键技术构建护城河

Wall-OSS-0.5的出色表现得益于团队的四项底层技术创新:

梯度桥接（Gradient Bridging）: 将动作监督信号直接强行注入预训练主干，使模型在底层表征上统一了“看、说、动”。
视觉对齐 Tokenizer: 确保每一个动作 Token 都承载了明确的视觉语义，赋予了模型真正的“物理含义”推演能力。
动作空间监督: 将训练重心聚焦于轨迹的整体结构而非琐碎的高频细节，极大提升了收敛效率。
DMuon 分布式优化: 研发团队通过底层系统优化，将异构计算开销降低了100倍，使得这种复杂的训练配方在大规模集群上具备了实际落地可能。

具身智能的里程碑

目前，自变量机器人已将 Wall-OSS-0.5的相关模型权重、训练代码及数据集接口全栈开源。

行业分析人士指出，Wall-OSS-0.5的出现不仅是单纯的模型更新，它重新定义了具身智能的开发范式，即从单纯追求“单项任务的成功率”转向“通用物理直觉的迁移”。对于广大研究者和开发者而言，这标志着具身智能基座模型正式进入“可复现、可验证、可挑战”的新阶段，将极大地加速通用机器人在复杂真实环境中的落地步伐。