当前位置: 科技先知道 » 人工智能 » AI推理遭遇存储瓶颈:Token经济时代存力成关键竞争力

AI推理遭遇存储瓶颈:Token经济时代存力成关键竞争力

大模型产业正经历一场深刻变革。过去两年,行业聚焦于模型研发与GPU堆叠,而如今,随着AI推理进入规模化应用阶段,存储能力正成为决定AI性能与成本的核心要素。

民生证券最新研报显示,受AI需求拉动,2025年第四季度存储价格将持续看涨。这一趋势源于AI应用对存储要求的提升,以及服务器对高阶DRAM和HBM需求的增长。

在近期举行的“先进存力AI推理工作研讨会”上,行业专家达成共识:推理时代的性能瓶颈正从算力侧转向存储侧。当GPU因等待数据而闲置时,算力利用率下降直接推高推理成本。数据显示,推理侧算力利用率每提升20%,整体成本可降低15%-18%。

当前推理负载呈现三大变化:HBM难以容纳膨胀的KVCache、多模态输入导致I/O拥堵、存储延迟波动影响任务调度。这些问题共同导致GPU利用率不足,而非算力本身不够。

中国移动云能力中心正推进基于CXL的新型高速互联,将CPU内存、GPU显存及云主机闪存统一池化,实现存储资源的按需分配。华为则通过UCM推理记忆数据管理技术,在万卡集群优化中实现训练连续运行22天,算效提升超50%。

未来三年,产业将聚焦四大方向:提升GPU利用率比继续堆卡更具价值;存储从数据存放转向数据管理;训推一体化要求存储系统具备实时性;CXL架构将重塑内存与存储边界。

在Token经济时代,决定AI商业化成功的不仅是模型能力,更是底层的数据流动效率。存储能力正从后台工程走向前台,成为推动AI落地的关键力量。

未经允许不得转载:科技先知道 » AI推理遭遇存储瓶颈:Token经济时代存力成关键竞争力

相关文章

My title