在生成式AI全面进军三维领域的浪潮中,如何让机器不仅能“看见”物体,更能理解其内部结构、关节与运动机制,已成为学界与产业界共同追逐的目标。南洋理工大学S-Lab团队近期发布的研究,为这一难题提供了新的解决方案。
该团队提出的统一建模框架,能够仅凭一张普通图像,就生成具备精确几何结构、合理关节参数与逼真外观纹理的可动三维物体。实验数据显示,该模型在几何精度(Chamfer Distance指标)、外观真实度(FID得分)及运动合理性等多个维度上,均显著优于现有方法。
其核心创新在于将几何、运动与外观置于统一框架中进行协同学习。首先,模型通过一个三维变分自编码器,将带有丰富关节信息的体素数据压缩为结构潜编码。随后,一个基于Transformer的扩散模型在该潜空间中学习生成可动结构。最后,通过关节感知的外观解码微调策略,模型学会了为运动后新暴露的表面生成自然、连贯的纹理,解决了传统方法中常见的纹理断裂或缺失问题。
整个推理过程仅需约二十秒。用户输入一张图片,即可获得一个可直接进行旋转、平移等交互操作的三维高斯对象。
这项研究的价值远不止于技术突破。它构建了一套真正可扩展的生成框架,大幅降低了创建可交互三维内容的门槛。其应用前景广阔,从虚拟现实、游戏资产制作、线上商品展示,到机器人操作学习与数字孪生构建,几乎所有需要大量可动三维模型的领域都将受益。该框架不局限于特定物体类别,未来有望推广至机械、工具乃至生物骨骼等更复杂的系统。
这项工作标志着AI在理解物体功能性与交互属性方面迈出了关键一步,为未来交互式数字世界的构建奠定了重要基础。





