谷歌发布Gemini 3驱动的Nano Banana Pro图像生成模型，突破AI文字精准度瓶颈

谷歌最新推出的AI图像生成模型Nano Banana Pro，基于两天前刚发布的Gemini 3模型构建，在文字准确性和专业级编辑能力方面取得重大突破。这款新产品的发布标志着谷歌与OpenAI在生成式AI商业化领域的竞争进一步升级。

Nano Banana Pro专门解决了AI图像生成中长期存在的”拼写问题”，能够准确呈现文字内容，避免以往模型中常见的文字扭曲和拼写错误。该模型支持最高4K分辨率输出，提供增强的文字渲染能力和更精细的视觉元素控制，这些特性使其对普通用户和专业设计师都具有强大吸引力。

该模型已全面接入谷歌产品生态系统，免费用户享有有限使用额度，付费订阅AI Pro和Ultra计划的用户则可获得更高生成限额。值得注意的是，Nano Banana Pro已与Canva、Figma及Adobe的Firefly和Photoshop等主流设计平台完成集成，这意味着专业设计师可以在现有工作流程中直接使用这一先进工具。

在技术细节方面，Nano Banana Pro通过预先规划文字位置、字体特性和空间关系，实现了”工作室级别的精准度和控制力”。用户可以通过文本提示指定相机角度、景深、色彩分级和宽高比等专业摄影参数。该模型还支持在单个工作流程中保持最多五个角色的一致性，并整合多达14个参考对象，这对品牌营销活动的视觉资产开发尤为重要。

定价策略显示，生成1080p或2K图像每张成本为0.139美元，4K图像则为0.24美元，较原模型的0.039美元有显著提升。谷歌坦言新模型速度较慢且成本更高，但强调其提升的质量足以证明其在专业应用场景中的价值。

尽管性能大幅提升，谷歌也承认该模型仍存在一定局限。非英语语言的语法、拼写和文化细微差别处理仍有困难，小尺寸面部、精确拼写和图像细节处理仍是挑战。此外，角色一致性虽已改善，但尚未完全可靠。

随着Nano Banana Pro的推出，谷歌在Gemini应用中嵌入了SynthID技术，用户可借此识别图像是否由谷歌AI生成。所有AI生成媒体都包含不可见的数字水印，免费和Pro级用户生成的图像还会显示可见水印，仅Ultra订阅用户可获得无水印内容。

谷歌发布Gemini 3驱动的Nano Banana Pro图像生成模型，突破AI文字精准度瓶颈

相关文章

近期热门