当前位置: 科技先知道 » 人工智能 » 从单张图片到可动3D模型:南洋理工大学新框架实现结构、关节与纹理一体化生成

从单张图片到可动3D模型:南洋理工大学新框架实现结构、关节与纹理一体化生成

在生成式AI全面进军三维领域的浪潮中,如何让机器不仅能“看见”物体,更能理解其内部结构、关节与运动机制,已成为学界与产业界共同追逐的目标。南洋理工大学S-Lab团队近期发布的研究,为这一难题提供了新的解决方案。

该团队提出的统一建模框架,能够仅凭一张普通图像,就生成具备精确几何结构、合理关节参数与逼真外观纹理的可动三维物体。实验数据显示,该模型在几何精度(Chamfer Distance指标)、外观真实度(FID得分)及运动合理性等多个维度上,均显著优于现有方法。

其核心创新在于将几何、运动与外观置于统一框架中进行协同学习。首先,模型通过一个三维变分自编码器,将带有丰富关节信息的体素数据压缩为结构潜编码。随后,一个基于Transformer的扩散模型在该潜空间中学习生成可动结构。最后,通过关节感知的外观解码微调策略,模型学会了为运动后新暴露的表面生成自然、连贯的纹理,解决了传统方法中常见的纹理断裂或缺失问题。

整个推理过程仅需约二十秒。用户输入一张图片,即可获得一个可直接进行旋转、平移等交互操作的三维高斯对象。

这项研究的价值远不止于技术突破。它构建了一套真正可扩展的生成框架,大幅降低了创建可交互三维内容的门槛。其应用前景广阔,从虚拟现实、游戏资产制作、线上商品展示,到机器人操作学习与数字孪生构建,几乎所有需要大量可动三维模型的领域都将受益。该框架不局限于特定物体类别,未来有望推广至机械、工具乃至生物骨骼等更复杂的系统。

这项工作标志着AI在理解物体功能性与交互属性方面迈出了关键一步,为未来交互式数字世界的构建奠定了重要基础。

未经允许不得转载:科技先知道 » 从单张图片到可动3D模型:南洋理工大学新框架实现结构、关节与纹理一体化生成

相关文章

My title