从单张图片到可动3D模型：南洋理工大学新框架实现结构、关节与纹理一体化生成

在生成式AI全面进军三维领域的浪潮中，如何让机器不仅能“看见”物体，更能理解其内部结构、关节与运动机制，已成为学界与产业界共同追逐的目标。南洋理工大学S-Lab团队近期发布的研究，为这一难题提供了新的解决方案。

该团队提出的统一建模框架，能够仅凭一张普通图像，就生成具备精确几何结构、合理关节参数与逼真外观纹理的可动三维物体。实验数据显示，该模型在几何精度（Chamfer Distance指标）、外观真实度（FID得分）及运动合理性等多个维度上，均显著优于现有方法。

其核心创新在于将几何、运动与外观置于统一框架中进行协同学习。首先，模型通过一个三维变分自编码器，将带有丰富关节信息的体素数据压缩为结构潜编码。随后，一个基于Transformer的扩散模型在该潜空间中学习生成可动结构。最后，通过关节感知的外观解码微调策略，模型学会了为运动后新暴露的表面生成自然、连贯的纹理，解决了传统方法中常见的纹理断裂或缺失问题。

整个推理过程仅需约二十秒。用户输入一张图片，即可获得一个可直接进行旋转、平移等交互操作的三维高斯对象。

这项研究的价值远不止于技术突破。它构建了一套真正可扩展的生成框架，大幅降低了创建可交互三维内容的门槛。其应用前景广阔，从虚拟现实、游戏资产制作、线上商品展示，到机器人操作学习与数字孪生构建，几乎所有需要大量可动三维模型的领域都将受益。该框架不局限于特定物体类别，未来有望推广至机械、工具乃至生物骨骼等更复杂的系统。

这项工作标志着AI在理解物体功能性与交互属性方面迈出了关键一步，为未来交互式数字世界的构建奠定了重要基础。

从单张图片到可动3D模型：南洋理工大学新框架实现结构、关节与纹理一体化生成

相关文章

近期热门