8月29日,中文多模态视觉语言模型测评基准SuperCLUE-VLM发布最新榜单,百度ERNIE-4.5-Turbo-VL以66.47分的总分在国内模型中并列第一,展现出在真实场景任务中的显著优势。
此次评测涵盖15款国内外主流多模态模型,包括Claude-Opus-4.1、Gemini-2.5-Pro、GPT-5(high)、ERNIE-4.5-Turbo-VL、豆包Seed-1.6-thinking、混元T1-Vision以及通义千问V1-Max-Latest等。评测围绕基础认知、视觉推理和视觉应用三大核心维度展开,全面考察模型在中文场景下的综合能力。
从评测结果来看,Gemini-2.5-Pro以74.99分位居榜首,OpenAI GPT-5(high)以68.59分排名第二。百度ERNIE-4.5-Turbo-VL-32k-preview以66.47分的成绩与国内其他头部模型并列第一。分析指出,文心大模型在多模态领域展现出多维度的领先优势,特别是在视觉推理和视觉应用等高阶任务上的显著进步,凸显出中国在多模态大模型领域的竞争潜力。
值得一提的是,百度于6月30日开源了文心4.5系列的10款模型。其中,ERNIE-4.5-VL视觉语言模型具备强大的图文与视频理解能力,支持超过100种语言交互,其跨模态能力覆盖文档处理、视频管理、学习解题等多个核心任务场景。
作为国内最早布局大模型研发的企业,百度依托“芯片-框架-模型-应用”的全栈自研体系,持续推动文心大模型的技术演进。通过飞桨与文心的联合优化,模型能力不断拓展,效率显著提升。截至目前,飞桨文心开发者数量已突破2185万,服务企业超过67万家,创建的模型数量达到110万个。
SuperCLUE-VLM榜单的发布,不仅为行业提供了权威的评测参考,也展现出多模态大模型技术的快速发展态势。随着技术的不断成熟,多模态模型将在更多实际应用场景中发挥重要作用。