世界模型如何重塑具身智能？专访极佳科技朱政谈技术突破与行业未来

更新于 2025-09-04 18:30:31首发于 2025-09-04 18:30:31人工智能

数据问题一直是制约具身智能发展的核心瓶颈。真机数据采集成本高昂，动辄上亿元，而仿真数据又面临严重的Sim2Real鸿沟。面对这一困境，行业开始将目光转向世界模型——这个从自动驾驶领域兴起的技术概念，能否为具身智能带来突破？

极佳科技联合创始人兼首席科学家朱政博士表示，世界模型本质上是对未来状态的预测能力。在具身智能场景中，它能够通过动作序列预测环境反馈，从而解决训练数据不足的问题。

朱政将世界模型的发展分为三个阶段：现阶段主要用于生成训练数据；下一步将为智能体提供闭环仿真环境；最终将进化成VLA（视觉语言动作模型）的下一代。整个过程预计需要3-5年时间。

在技术实现上，极佳科技采用3D世界模型和视频世界模型双轨并进的策略。3D世界模型基于3D高斯散射技术，擅长大空间建模和移动导航；视频世界模型则更适用于精细操作场景。通过融合两种方式，团队成功将任务执行的成功率提升了50%。

令人瞩目的是，极佳科技通过世界模型生成的数据已占训练数据的90%，仅使用10%的真机数据就实现了显著的效果提升。这种方法将训练成本从数千万元降至数百万元，大幅降低了行业门槛。

朱政认为，世界模型与VLA最终将融为一体。世界模型产生的训练数据在体量和通用性方面，是唯一有望达到大语言模型互联网数据级别的路径，这将为物理世界通用智能的发展奠定坚实基础。

目前，极佳科技已经为政府实训场、高校科研和商业服务场景提供软硬件配套方案。随着技术不断成熟，预计未来几年将向ToC市场拓展，推动具身智能技术的规模化应用。