当前位置: 科技先知道 » 人工智能 » LongCat-Flash-Omni开源发布:5600亿参数全模态模型实现毫秒级实时交互

LongCat-Flash-Omni开源发布:5600亿参数全模态模型实现毫秒级实时交互

11月3日,LongCat-Flash系列迎来重要升级,全新成员LongCat-Flash-Omni正式开源发布,配套官方App同步开启公测。这款模型以5600亿总参数、270亿激活参数的规模,突破性地实现了低延迟实时音视频交互能力,为多模态应用开发提供了新的技术选择。

作为业界首个实现全模态覆盖、端到端架构、大参数量高效推理的开源大语言模型,LongCat-Flash-Omni在开源领域首次达到了与闭源模型相当的全模态能力。通过创新的ScMoE架构和轻量级编解码器设计,模型在保持庞大参数规模的同时,成功将响应时间控制在毫秒级别,有效解决了行业内的推理延迟难题。

技术架构上,模型采用完全端到端设计,通过视觉与音频编码器作为多模态感知器,由LLM直接处理输入并生成文本与语音token,再经由轻量级音频解码器重建为自然语音。所有模块均基于高效流式推理设计,视觉编码器和音频编解码器参数量均控制在6亿左右,实现了性能与效率的最佳平衡。

在基准测试中,LongCat-Flash-Omni表现亮眼。文本能力保持系列优势,图像理解达到74.8分的RealWorldQA成绩,与Gemini-2.5-Pro相当;音频能力在ASR、TTS等任务中优于Gemini-2.5-Pro;视频理解性能达到当前最优水平。特别在跨模态理解方面,模型在WorldSense基准测试中展现出显著优势。

针对实时交互能力,团队通过250名用户评分和10名专家分析的综合评估显示,模型在自然度与流畅度上比当前最优开源模型Qwen3-Omni高出0.56分。虽然在实时性、类人性等维度仍有提升空间,但已为开源全模态模型树立了新的技术标杆。

未经允许不得转载:科技先知道 » LongCat-Flash-Omni开源发布:5600亿参数全模态模型实现毫秒级实时交互

相关文章

My title