当前位置: 科技先知道 » 人工智能 » 谷歌Gemini图像编辑功能升级:纳米香蕉模型带来更精准的AI修图体验

谷歌Gemini图像编辑功能升级:纳米香蕉模型带来更精准的AI修图体验

谷歌DeepMind团队近日发布了Gemini 2.5 Flash图像编辑模型,这款在LMArena排行榜上以“纳米香蕉”代号登顶的新模型,显著提升了AI生成图像的主体一致性。这一突破解决了多轮编辑中人物或物体形象不统一的行业痛点。

自今年4月Gemini开放原生图像编辑功能以来,用户无需掌握专业修图技术,只需上传图片并输入文字指令即可完成编辑。最新升级的模型支持更复杂的操作:在更换人物着装或背景场景时,能精准保持面部特征;支持多图合成,可将不同照片中的主体融合到同一画面;还能对局部细节进行修改,例如实时预览房间更换墙漆颜色或家具摆放的效果。

在实际测试中,该模型成功将宠物狗调整至“下犬式”瑜伽姿势并转换到瑜伽馆场景,保持了动物的外貌特征并睁开了眼睛,但身体曲线仍存在细微偏差。正如谷歌DeepMind所言,模型在处理精细纹理、文字内容等细节时仍可能出现误差。测试图片中宠物毛发呈现过度平滑化处理,但整体色彩与形态保持稳定。

为区分AI生成内容,所有输出图像均包含可见水印和不可见的SynthID数字指纹。目前该功能已在Gemini应用程序中正式上线,用户可亲身体验这项融合了计算机视觉与自然语言处理的技术创新。

行业观察指出,这项技术突破体现了生成式AI在图像编辑领域的发展趋势:从单纯的内容生成向精准可控的智能编辑演进。虽然目前仍存在细节处理局限,但已显著降低专业级图像处理的技术门槛。随着多模态大模型持续优化,AI辅助创作有望重塑数字内容生产流程。

未经允许不得转载:科技先知道 » 谷歌Gemini图像编辑功能升级:纳米香蕉模型带来更精准的AI修图体验

相关文章

My title