当前位置: 科技先知道 » 人工智能 » 颠覆认知!中科院研究揭示LLM推理性能真相:Attention并非唯一瓶颈,多GPU未必更快

颠覆认知!中科院研究揭示LLM推理性能真相:Attention并非唯一瓶颈,多GPU未必更快

大语言模型在实际部署中,推理性能已成为关键掣肘。中国科学院计算所严明玉教授团队联合多家机构,在最新研究中系统揭示了LLM在GPU上的推理行为规律,其结论挑战了多项工程直觉。

研究首次将推理过程明确划分为两个本质不同的阶段:Prefill(预填充)和Decode(解码)。Prefill阶段并行处理输入提示,计算密集,性能受算力限制;Decode阶段则逐个生成Token,计算量小但内存访问频繁,瓶颈在于内存带宽。性能主导权并非固定,而是动态取决于输入输出长度:短输入长输出时,Decode主导延迟;长输入时,Prefill则成为主要耗时部分。

更关键的是,研究打破了“Attention永远是瓶颈”的迷思。在常见上下文长度下,Prefill的瓶颈往往是前馈网络(FFN),仅在极长上下文时Attention才凸显;Decode阶段中,小模型受Attention内存访问制约,而大模型反而因FFN参数量大、加载成本高成为瓶颈。这要求优化必须结合具体阶段、模型规模与上下文长度进行针对性设计。

能耗分析给出了直观结论:推理总能耗几乎全部来自Decode阶段,输出Token数直接决定能耗高低,输入长度影响甚微。这意味着,控制输出长度是降低能耗更有效的策略。

在多GPU扩展性方面,研究发现并行化并非万能。Prefill阶段因计算量大,多GPU能有效加速;但Decode阶段因计算粒度细,多卡通信与同步开销可能抵消收益,甚至导致性能下降。在Decode为主的场景下,单卡或轻量流水并行往往是更优选择。

研究还探讨了MoE与RAG等新范式。MoE模型推理速度取决于激活参数量而非总量,但Decode阶段会引入专家路由开销;RAG流程中,当外部知识库规模增大时,瓶颈会从GPU推理转移至CPU侧的检索过程。

这项工作的核心价值在于构建了一个统一、可解释的LLM推理性能认知框架,将Prefill与Decode的差异提升为系统级基本规律,为后续的模型部署、资源调度与系统优化提供了坚实的理论依据与方向指引。

未经允许不得转载:科技先知道 » 颠覆认知!中科院研究揭示LLM推理性能真相:Attention并非唯一瓶颈,多GPU未必更快

相关文章

My title