快手Keye-VL-2.0-30B-A3B发布:率先将DSA注意力引入多模态理解场景
快手正式发布新版多模态大模型Keye-VL-2.0-30B-A3B,首次将DSA注意力机制引入多模态理解场景,支持256K超长上下文和Agent协作,在长视频时序理解上表现显著,在多项基准中取得同尺寸SOTA。
快手正式发布了新版多模态大模型Keye-VL-2.0-30B-A3B。该模型为Keye家族最新一代30B级主力基座,率先将DSA(DeepSeek Sparse Attention)机制引入多模态理解场景,支持最高256K超长上下文,在长视频时序感知上实现了几乎无损的推理能力。这也是Keye系列首次在基座中内建Agent协作机制,在Code、Tool、Search等复杂场景下展现出系统级的执行潜力。DSA注意力机制通过结合稀疏注意力与针对性特征聚合,使模型在处理小时级视频时能够有效提纯信息、捕捉关键帧。基于DSA的系统级优化,模型长序列Prefill阶段成本降低了50%,为超长视频的大规模落地提供了极具竞争力的低成本方案。快手还打造了专为长视频、变长序列服务的训练Infra,在“时空统一编码”与“长时序特征聚合”上深度优化,使视频理解能力较历史版本全面提升,在多项核心时序指标上跨越了尺寸壁垒,成为同尺寸模型中的SOTA。


