从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团技术团队正式开源数字人视频生成模型 LongCat-Video-Avatar 1.5,在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面全面升级,推理速度提升最高15倍,性能超越主流开源及闭源系统,从高拟真迈向真可用的商业级应用。

5月22日,美团技术团队正式开源其数字人视频生成模型 LongCat-Video-Avatar 1.5。该版本在唇形同步、物理合理性、长视频稳定性、多人互动以及高效推理等方面实现全面升级,标志着数字人视频生成从追求“高拟真”的开源SOTA(State-of-the-Art)水平,正式迈向“真可用”的商业级应用阶段。

核心性能全面提升

LongCat-Video-Avatar 1.5 基于 LongCat-Video 基础模型构建,采用 wav2vec2 进行音频特征提取,支持单人物与多人物音频驱动视频生成。此次重点优化了唇形同步精度,使生成的数字人嘴部动作与音频高度匹配,显著减少语音与口型不同步的问题。在物理合理性方面,模型对人体的运动姿态、表情过渡进行了更细致的建模,提升了动作的自然度和连贯性。同时,针对长视频生成中容易出现的画面抖动、特征漂移等问题,新版本在稳定性上做出了针对性改进,支持生成长时高质量视频而无需频繁中断修复。

在多人互动场景中,LongCat-Video-Avatar 1.5 支持单流与多流音频输入,能够同时生成多个数字人的协同视频,满足对话、访谈等复杂场景需求。推理效率方面,模型实现了最高15倍的推理加速,大幅缩短了生成时间,为实时或近实时的商业应用提供了可能。据官方介绍,该模型在真实感、自然度和稳定性方面已超越主流开源模型及部分闭源系统。

开源与商业级可用性

LongCat-Video-Avatar 1.5 采用开源方式发布,支持音频-文本转视频(AT2V)、音频-文本-图像转视频(ATI2V)以及视频续播等原生任务。这意味着开发者可以在已有图像基础上驱动数字人动作,或根据文本描述调整生成内容,拓展了数字人视频的创作边界。美团技术团队表示,该版本的设计初衷是解决数字人在复杂商业场景中的落地难题,从模型架构到推理优化均面向生产环境做了适配。

开源使得更多研究者和企业能够基于该模型进行二次开发和定制化部署,有助于加速数字人技术在直播、在线教育、客户服务、虚拟助手等领域的应用普及。LongCat-Video-Avatar 1.5 已发布于 Hugging Face 和 AtomGit 等平台,开发者可获取模型权重及使用示例。

本文参考来源:OSCHINA 社区最新新闻

发表回复