美团开源LongCat-Video：突破长视频生成瓶颈，向世界模型迈出关键一步

美团LongCat团队近日开源了LongCat-Video视频生成模型，这一重要进展被视为该公司探索世界模型的第一步。该模型在文生视频和图生视频基础任务上达到了开源领域的最先进水平，为连接数字世界与物理世界奠定了技术基础。

世界模型作为人工智能领域的核心发展方向，旨在让AI系统真正理解、预测和重构真实世界。通过建模物理规律、时空演化和场景逻辑，世界模型赋予人工智能洞察世界运行本质的能力。视频生成模型正是构建这种能力的关键路径，能够在数字空间中压缩几何、语义、物理等多种知识形式。

LongCat-Video基于Diffusion Transformer架构，创新性地通过条件帧数量实现任务区分，原生支持文生视频、图生视频和视频续写三大核心任务。该模型无需额外适配就能形成完整任务闭环，展现出卓越的技术集成能力。

在长视频生成方面，LongCat-Video实现了重大突破。依托视频续写任务预训练，模型可稳定输出5分钟级别的长视频且无质量损失。通过有效解决色彩漂移、画质降解等行业痛点，该模型确保了跨帧时序一致性和物理运动合理性。

技术优化方面，模型采用块稀疏注意力与条件token缓存机制，大幅降低了长视频推理冗余。即便处理93帧以上的长序列，仍能保持效率与生成质量的平衡。通过二阶段粗到精生成、块稀疏注意力和模型蒸馏三重优化，视频推理速度提升至10.1倍。

评估数据显示，这款136亿参数的视频生成基座模型在文生视频和图生视频任务中综合性能达到开源SOTA水平。在文本对齐度、运动连贯性等关键指标上表现尤为突出，在VBench等公开基准测试中整体表现优异。

未来，LongCat模型将融入美团的自动驾驶、具身智能等深度交互业务场景，成为连接比特世界和原子世界的重要技术基础。这一开源举措不仅推动了视频生成技术的发展，更为世界模型的研究开辟了新的可能性。