在物理世界建模与具身智能领域,如何让AI精准理解并交互于动态环境,是中山大学王广润博士团队的核心研究方向。在近期GAIR 2025大会上,王广润博士分享了其团队在创新基础模型架构、强化物理世界建模方面的突破性进展。
王广润指出,当前主流的视觉-语言-动作(VLA)模型面临泛化能力弱、动作控制粗糙、建模范式不一致三大瓶颈。为此,团队提出了全新的具身大模型E0。该模型的核心创新在于采用了一种名为“原位推理的离散扩散模型”的全新生成框架。与传统的基于掩码(Mask)的扩散语言模型不同,该方法直接在离散信号的one-hot表示上进行加噪与去噪,在文本生成等任务上取得了显著更优的效果,且训练测试更为稳定。
基于新框架训练的E0模型在多个主流评测集上表现突出。在LIBERO、ManiSkill、VLABench等数据集上,该模型在精细操作(如插插座)、场景理解与长程任务规划方面均大幅超越基线模型。真机实验也验证了其有效性,在捡方块、关微波炉等短程任务,以及“拉开抽屉-放入方块”等复杂长程任务中均表现出色,甚至在遭遇人为干扰时也能稳健执行。
王广润博士分享了一个关键洞见:当前具身智能的难点在于模型未能很好地将“物理建模”与“空间建模”解耦。团队实验发现,当模型适配新环境时,无需对整个数十亿参数的大模型进行微调。例如,仅需使用单条样本,对视觉模块中约400万(或更少至4000个)的参数进行微调,即可让模型在新场景中实现优异的泛化性能。这一发现为高效、轻量化的机器人部署提供了新思路。
此外,针对具身智能领域缺乏统一真机评测基准的现状,该团队搭建了一个开放评测框架,研究者可通过互联网远程调用实验室机器人进行任务测试,旨在推动更公平、可复现的评估。
王广润团队的工作表明,通过架构创新实现建模范式的统一,并对模型组件进行清晰解耦,是提升AI物理世界交互能力、降低部署成本的关键路径。





