2024年底,ChatGPT之父Ilya在全球AI顶会上发出预警:数据压榨已到尽头,AGI发展面临瓶颈。这一警告揭开了AI行业面临的核心挑战——当前主流自回归模型存在根本性缺陷。
自回归模型的单向建模特性导致其无法进行逆向思维,即使知道“汤姆·克鲁斯的母亲是Mary Lee Pfeiffer”,也无法推理出“Mary Lee Pfeiffer的孩子是汤姆·克鲁斯”。这种“AB逆转”问题暴露了底层架构的局限性。
在此背景下,蚂蚁通用人工智能研究中心主任蓝振忠与高瓴人工智能学院李崇轩开始探索新路径。他们发现扩散模型具有并行解码、双向建模和迭代修正三大优势,正好弥补自回归模型的不足。
2025年9月,双方团队在上海外滩大会发布了LLaDA-MoE模型。这个基于扩散理论的新范式模型总参数量7B,激活参数量1.4B,在20T高质量数据上完成训练。测试显示,LLaDA-MoE不仅超越了同类扩散语言模型,还追平了Qwen2.5-3B自回归模型。
更重要的是,LLaDA-MoE验证了MoE架构在扩散语言模型上的放大效应,为行业规模化扩展指明了方向。团队已将基础模型和指令微调版全部开源,并同步推出深度优化的推理引擎。
蓝振忠表示:“如果不去探索那些在别人眼中可能充满风险的领域,就只能永远跟随他人已经确定的路径前进。”这一突破标志着在通往AGI的道路上,中国团队正在开辟新的技术路线。