谷歌Gemini图像编辑功能升级：纳米香蕉模型带来更精准的AI修图体验

谷歌DeepMind团队近日发布了Gemini 2.5 Flash图像编辑模型，这款在LMArena排行榜上以“纳米香蕉”代号登顶的新模型，显著提升了AI生成图像的主体一致性。这一突破解决了多轮编辑中人物或物体形象不统一的行业痛点。

自今年4月Gemini开放原生图像编辑功能以来，用户无需掌握专业修图技术，只需上传图片并输入文字指令即可完成编辑。最新升级的模型支持更复杂的操作：在更换人物着装或背景场景时，能精准保持面部特征；支持多图合成，可将不同照片中的主体融合到同一画面；还能对局部细节进行修改，例如实时预览房间更换墙漆颜色或家具摆放的效果。

在实际测试中，该模型成功将宠物狗调整至“下犬式”瑜伽姿势并转换到瑜伽馆场景，保持了动物的外貌特征并睁开了眼睛，但身体曲线仍存在细微偏差。正如谷歌DeepMind所言，模型在处理精细纹理、文字内容等细节时仍可能出现误差。测试图片中宠物毛发呈现过度平滑化处理，但整体色彩与形态保持稳定。

为区分AI生成内容，所有输出图像均包含可见水印和不可见的SynthID数字指纹。目前该功能已在Gemini应用程序中正式上线，用户可亲身体验这项融合了计算机视觉与自然语言处理的技术创新。

行业观察指出，这项技术突破体现了生成式AI在图像编辑领域的发展趋势：从单纯的内容生成向精准可控的智能编辑演进。虽然目前仍存在细节处理局限，但已显著降低专业级图像处理的技术门槛。随着多模态大模型持续优化，AI辅助创作有望重塑数字内容生产流程。

谷歌Gemini图像编辑功能升级：纳米香蕉模型带来更精准的AI修图体验

相关文章

近期热门