LongCat-Flash-Omni开源发布：5600亿参数全模态模型实现毫秒级实时交互

11月3日，LongCat-Flash系列迎来重要升级，全新成员LongCat-Flash-Omni正式开源发布，配套官方App同步开启公测。这款模型以5600亿总参数、270亿激活参数的规模，突破性地实现了低延迟实时音视频交互能力，为多模态应用开发提供了新的技术选择。

作为业界首个实现全模态覆盖、端到端架构、大参数量高效推理的开源大语言模型，LongCat-Flash-Omni在开源领域首次达到了与闭源模型相当的全模态能力。通过创新的ScMoE架构和轻量级编解码器设计，模型在保持庞大参数规模的同时，成功将响应时间控制在毫秒级别，有效解决了行业内的推理延迟难题。

技术架构上，模型采用完全端到端设计，通过视觉与音频编码器作为多模态感知器，由LLM直接处理输入并生成文本与语音token，再经由轻量级音频解码器重建为自然语音。所有模块均基于高效流式推理设计，视觉编码器和音频编解码器参数量均控制在6亿左右，实现了性能与效率的最佳平衡。

在基准测试中，LongCat-Flash-Omni表现亮眼。文本能力保持系列优势，图像理解达到74.8分的RealWorldQA成绩，与Gemini-2.5-Pro相当；音频能力在ASR、TTS等任务中优于Gemini-2.5-Pro；视频理解性能达到当前最优水平。特别在跨模态理解方面，模型在WorldSense基准测试中展现出显著优势。

针对实时交互能力，团队通过250名用户评分和10名专家分析的综合评估显示，模型在自然度与流畅度上比当前最优开源模型Qwen3-Omni高出0.56分。虽然在实时性、类人性等维度仍有提升空间，但已为开源全模态模型树立了新的技术标杆。

LongCat-Flash-Omni开源发布：5600亿参数全模态模型实现毫秒级实时交互

相关文章

近期热门