人工智能在解题和写作方面表现越来越出色,但在理解人类个性化推理方式上表现如何?最近,南开大学、上海AI lab等机构进行了一项创新实验,通过社交推理游戏阿瓦隆(Avalon)对11个前沿大模型进行了全面测试。
研究人员设计了名为InMind的全新评测框架,重点关注大模型对玩家推理风格的识别能力。测试结果显示,大多数模型仍停留在表层模仿阶段,只有少数推理增强型模型展现出初步的风格敏感性。
在构建玩家画像的任务中,通用模型如GLM4-9B和Qwen2.5系列往往给出模糊的性格标签,缺乏与具体游戏局势的关联。相比之下,DeepSeek-R1能够结合上下文细节,深入分析玩家的推理动机,展现出更接近人类的理解能力。
在玩家识别环节,大多数模型的表现令人失望。Top-1准确率普遍低于20%,Top-3准确率也仅在50%左右徘徊。GPT-4o的Top-1准确率仅为0.160,Qwen2.5-72B略好达到0.198,但都未能突破随机猜测的水平。DeepSeek-R1以0.240的Top-1准确率脱颖而出,显示出真正的风格理解能力。
实验还测试了模型的动态推理能力。在轨迹归因任务中,大多数模型无法有效利用历史信息,表现随着回合增加而下降。DeepSeek-R1是少数例外,准确率从0.503提升到0.517,证明其具备一定的连续推理能力。
这项研究采用InMind-Avalon数据集,包含30局完整对局、884个回合和160条策略轨迹。所有测试都在零样本条件下进行,确保结果的公平性和可比性。
研究结果表明,当前大模型在理解人类个性化推理风格方面仍有很大提升空间。要实现真正的人机协作,AI不仅需要正确答案,更需要理解人类的思维差异。这项研究为AI推理能力的发展指明了新方向,也让我们看到人工智能要真正理解人类思维还有很长的路要走。