在追求通用视觉智能的道路上,依赖单一任务或模态的模型正面临瓶颈。现实应用往往要求系统同时具备问答、视频理解、目标定位、跟踪及逻辑推理等综合能力。针对这一挑战,香港中文大学多媒体实验室(MMLab)与美团的研究团队提出了创新的解决方案——OneThinker多模态统一推理模型。
OneThinker的核心思路在于“统一”。它摒弃了为每个任务单独设计模型的传统路径,将图像与视频中的问答、描述、定位、跟踪和分割等多种任务,统一抽象为“先推理、后作答”的通用范式。研究团队通过大规模多任务数据集和引入改进的强化学习算法(如EMA-GRPO),对模型进行整体优化,旨在验证一个模型能否在不牺牲单项性能的前提下,同时掌握多种视觉理解与推理能力。
实验结果表明,这一思路是成功的。在涵盖图像与视频模态的系统评测中,OneThinker在绝大多数任务上表现优于基础模型及现有开源方法。具体而言,在需要复杂数学与逻辑推理的图像问答、需理解时间演变的视频问答,以及图像/视频描述任务中,其性能均处于领先地位。在时空定位、目标跟踪及分割等感知任务上,OneThinker同样展现出强大的竞争力,证明了推理机制对感知任务的有效补充。
尤为重要的是,消融实验证实,强化学习策略及其改进算法对统一多任务训练至关重要。此外,模型在未训练过的新任务上展现了良好的零样本泛化能力,说明其学习到了通用、可迁移的视觉推理知识。
这项研究的意义不仅在于性能提升。它揭示了一个重要方向:通用视觉智能的发展,或许更应聚焦于任务建模方式的统一、推理机制的设计以及训练策略的协同优化,而非单纯扩大模型规模。OneThinker通过统一的接口、训练流程和优化策略,促进了不同任务与模态间的知识与能力共享,为构建更贴近真实复杂场景(如自动驾驶、智能监控)的通用视觉推理系统,提供了一条清晰且可复用的技术路径。





