机器人模仿动作已不稀奇,但要让它们真正理解“为什么做”并完成复杂任务,核心挑战在于推理。近日,AI机器人公司星尘智能发布了其端到端全身视觉-语言-动作模型Lumo-1,旨在让机器人像人一样,先想清楚再行动。
传统VLA模型依赖“轨迹记忆”,在开放环境中常面临抽象概念失效、环境泛化困难、长时序任务易崩溃三大缺陷。Lumo-1则通过一套精心设计的“智力迁移”训练架构,试图从根本上解决这些问题。
其训练分为三个阶段:首先通过具身化视觉语言模型(VLM)预训练,让模型掌握空间理解和规划等“具身语义”;接着进行跨本体联合训练,强化指令跟随与空间推理;最后利用其绳驱机器人S1的高质量示教轨迹进行真机训练,让模型学习真实世界的可执行动作模式。最终,通过强化学习校准对齐推理与动作,减少执行误差。
这套方法的核心是让机器人形成结构化的推理链。Lumo-1将推理拆解为抽象概念、子任务、视觉观测和运动推理等多个维度。例如,面对“把代表爱情的花放进花瓶”这样的指令,机器人能理解“玫瑰”的文化隐喻;当指令模糊时,也能进行关联推理。
效果如何?在多项核心操作任务测试中,Lumo-1的表现超越了π0、π0.5等先进模型。尤其在处理未见过的物体、场景或抽象模糊指令时,其泛化能力优势明显。团队验证发现,在固定模型规模下,训练数据的多样性对泛化能力的影响远超重复次数,这为行业优化训练策略提供了新方向。
Lumo-1的突破在于,它证明“推理”与“动作”并非零和博弈。通过合理的架构设计,机器人在获得强大操作智能的同时,其核心的多模态感知与推理能力并未受损。这标志着机器人正从单纯的动作执行者,向拥有“常识”与“决策”能力的智能体迈进。





