数据问题一直是制约具身智能发展的核心瓶颈。真机数据采集成本高昂,动辄上亿元,而仿真数据又面临严重的Sim2Real鸿沟。面对这一困境,行业开始将目光转向世界模型——这个从自动驾驶领域兴起的技术概念,能否为具身智能带来突破?
极佳科技联合创始人兼首席科学家朱政博士表示,世界模型本质上是对未来状态的预测能力。在具身智能场景中,它能够通过动作序列预测环境反馈,从而解决训练数据不足的问题。
朱政将世界模型的发展分为三个阶段:现阶段主要用于生成训练数据;下一步将为智能体提供闭环仿真环境;最终将进化成VLA(视觉语言动作模型)的下一代。整个过程预计需要3-5年时间。
在技术实现上,极佳科技采用3D世界模型和视频世界模型双轨并进的策略。3D世界模型基于3D高斯散射技术,擅长大空间建模和移动导航;视频世界模型则更适用于精细操作场景。通过融合两种方式,团队成功将任务执行的成功率提升了50%。
令人瞩目的是,极佳科技通过世界模型生成的数据已占训练数据的90%,仅使用10%的真机数据就实现了显著的效果提升。这种方法将训练成本从数千万元降至数百万元,大幅降低了行业门槛。
朱政认为,世界模型与VLA最终将融为一体。世界模型产生的训练数据在体量和通用性方面,是唯一有望达到大语言模型互联网数据级别的路径,这将为物理世界通用智能的发展奠定坚实基础。
目前,极佳科技已经为政府实训场、高校科研和商业服务场景提供软硬件配套方案。随着技术不断成熟,预计未来几年将向ToC市场拓展,推动具身智能技术的规模化应用。