面壁智能最新推出的MiniCPM-V 4.5多模态模型以仅8B参数实现了行业突破,成为首款支持高刷新率视频理解的端侧模型。该模型在多项关键能力上达到同级别最优,甚至超越参数量达72B的Qwen2.5-VL模型,展现出卓越的性能与效率平衡。
高刷视频理解是MiniCPM-V 4.5的核心突破。传统多模态模型受限于算力与功耗,通常采用1fps抽帧处理,导致大量动态信息丢失。而MiniCPM-V 4.5通过创新的3D-Resampler结构,在相同视觉token开销下可接收6倍视频帧,实现96倍视觉压缩率,达到同类模型的12-24倍处理效率。这一技术升级使模型能够精准捕捉快速变化的画面细节,在MotionBench和FavorBench等高刷视频理解评测中表现超越GPT-4o、Gemini-2.5-Pro等云端模型。
除了视频理解,该模型在图像理解、OCR和文档解析方面同样表现突出。在OpenCompass测评中,其图像理解能力领先多个闭源模型;在LVBench、MLVU等视频理解榜单中达到同级最佳;在OmniDocBench的文档识别任务中三项指标均取得SOTA表现。
特别值得关注的是其端侧友好特性。MiniCPM-V 4.5在保持顶级性能的同时,显著降低了显存占用和推理时间。在Video-MME测试中,其推理时间仅为同级模型的1/10。模型还支持常规与深度思考两种推理模式,通过混合推理训练方案,在保证响应速度的同时提升复杂任务处理能力。
技术实现上,模型通过3D-Resampler实现对视频片段的高密度压缩,支持最大10fps抽帧处理。在OCR与知识学习方面,创新性地采用文字信息可见度控制技术,实现了两种学习范式的有效融合。
MiniCPM-V 4.5的推出标志着端侧多模态模型的重要进展,证明通过结构创新和训练优化,小参数模型同样可以实现超越大模型的性能表现,为端侧AI应用开辟了新的可能性。