快手Keye-VL-2.0-30B-A3B发布:率先将DSA注意力引入多模态理解场景

快手正式发布新版多模态大模型Keye-VL-2.0-30B-A3B,首次将DSA注意力机制引入多模态理解场景,支持256K超长上下文和Agent协作,在长视频时序理解上表现显著,在多项基准中取得同尺寸SOTA。

快手正式发布了新版多模态大模型Keye-VL-2.0-30B-A3B。该模型为Keye家族最新一代30B级主力基座,率先将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,支持最高256K超长上下文,在长视频时序感知上实现了几乎无损的推理能力。这也是Keye系列首次在基座中内建Agent协作机制,在Code、Tool、Search等复杂场景下展现出系统级的执行潜力。DSA注意力机制通过结合稀疏注意力与针对性特征聚合,使模型在处理小时级视频时能够有效提纯信息、捕捉关键帧。基于DSA的系统级优化,模型长序列Prefill阶段成本降低了50%,为超长视频的大规模落地提供了极具竞争力的低成本方案。快手还打造了专为长视频、变长序列服务的训练Infra,在“时空统一编码”与“长时序特征聚合”上深度优化,使视频理解能力较历史版本全面提升,在多项核心时序指标上跨越了尺寸壁垒,成为同尺寸模型中的SOTA。

多维基准验证与实例表现

Keye-VL-2.0-30B-A3B的时序推理能力在多项目权威基准中得到了验证。在细粒度视频时序理解基准TimeLens中,模型展现了帧级动作判断力。在VideoMME V2上,当输入视频从64帧扩展至512帧时,模型非线性得分从18.54提升至24.19。在LongVideoBench中,模型斩获74.10高分,将同级别开源基座远远甩在身后。此外,模型在MLVU(得分82.80)与VideoMMMU(得分79.98)等全能视听推理榜单上也取得了领先水平。在具体的应用案例中,Keye-VL-2.0-30B-A3B表现出超乎标签识别的因果推理能力。面对冰岛旅行Vlog,它捕捉到“冻手”细节并建议备好手套,根据美食吐槽给出“体验当地文化”的推荐,从雪地车祸场景推导出“跟团优于自驾”的安全策略。在陶杯制作工艺视频中,模型输出了附带精确时间戳的完整工序拆解,对挖土、煅烧、水飞、修坯、配釉、陈茶等每一步都实现了毫秒级对齐。在王者荣耀高光时刻识别中,模型并非简单依据击杀提示或画面剧烈变化,而是综合视觉张力、音画协同和电竞叙事作出判断。在长白山云顶天宫雪雕重建纪录片中,模型精准划分了8个核心场景,并展现了叙事解构能力。通过DSA注意力、Agent协作机制以及专业训练Infra的协同,Keye-VL-2.0-30B-A3B将多模态大模型的视频理解能力从基础感知推向了深度推理的新阶段,为长视频场景的落地提供了技术支持。


微信扫描下方的二维码阅读本文

快手Keye-VL-2.0-30B-A3B发布:率先将DSA注意力引入多模态理解场景 - Agent协作, DSA注意力, Keye-VL-2.0-30B-A3B, 多模态大模型, 快手, 时序推理, 稀疏注意力, 长视频理解

发表回复