当前位置: 科技先知道 » 人工智能 » 谷歌发布Gemini 3驱动的Nano Banana Pro图像生成模型,突破AI文字精准度瓶颈

谷歌发布Gemini 3驱动的Nano Banana Pro图像生成模型,突破AI文字精准度瓶颈

谷歌最新推出的AI图像生成模型Nano Banana Pro,基于两天前刚发布的Gemini 3模型构建,在文字准确性和专业级编辑能力方面取得重大突破。这款新产品的发布标志着谷歌与OpenAI在生成式AI商业化领域的竞争进一步升级。

Nano Banana Pro专门解决了AI图像生成中长期存在的”拼写问题”,能够准确呈现文字内容,避免以往模型中常见的文字扭曲和拼写错误。该模型支持最高4K分辨率输出,提供增强的文字渲染能力和更精细的视觉元素控制,这些特性使其对普通用户和专业设计师都具有强大吸引力。

该模型已全面接入谷歌产品生态系统,免费用户享有有限使用额度,付费订阅AI Pro和Ultra计划的用户则可获得更高生成限额。值得注意的是,Nano Banana Pro已与Canva、Figma及Adobe的Firefly和Photoshop等主流设计平台完成集成,这意味着专业设计师可以在现有工作流程中直接使用这一先进工具。

在技术细节方面,Nano Banana Pro通过预先规划文字位置、字体特性和空间关系,实现了”工作室级别的精准度和控制力”。用户可以通过文本提示指定相机角度、景深、色彩分级和宽高比等专业摄影参数。该模型还支持在单个工作流程中保持最多五个角色的一致性,并整合多达14个参考对象,这对品牌营销活动的视觉资产开发尤为重要。

定价策略显示,生成1080p或2K图像每张成本为0.139美元,4K图像则为0.24美元,较原模型的0.039美元有显著提升。谷歌坦言新模型速度较慢且成本更高,但强调其提升的质量足以证明其在专业应用场景中的价值。

尽管性能大幅提升,谷歌也承认该模型仍存在一定局限。非英语语言的语法、拼写和文化细微差别处理仍有困难,小尺寸面部、精确拼写和图像细节处理仍是挑战。此外,角色一致性虽已改善,但尚未完全可靠。

随着Nano Banana Pro的推出,谷歌在Gemini应用中嵌入了SynthID技术,用户可借此识别图像是否由谷歌AI生成。所有AI生成媒体都包含不可见的数字水印,免费和Pro级用户生成的图像还会显示可见水印,仅Ultra订阅用户可获得无水印内容。

未经允许不得转载:科技先知道 » 谷歌发布Gemini 3驱动的Nano Banana Pro图像生成模型,突破AI文字精准度瓶颈

相关文章

My title