字节开源原生视频/图像生成理解编辑统一模型 Lance

字节跳动智能创作实验室推出原生统一多模态模型Lance,以3B激活参数和多任务协同训练在单一框架中支持图像/视频理解、生成与编辑,现已开源权重和代码。

字节跳动智能创作实验室(ByteDance Intelligent Creation Lab)近日宣布推出原生统一多模态模型Lance。该模型以3B激活参数为核心,采用多任务协同训练策略,在单一原生统一框架中同时支持图像与视频的理解、生成和编辑任务。目前,Lance的模型权重和代码已正式开源。

统一框架与多任务协同

Lance的设计旨在打破图像与视频任务间的模型壁垒,在原生统一框架中整合理解、生成与编辑多种能力。通过多任务协同训练,模型在不同视觉任务间共享表征与训练信号,从而在保持3B激活参数规模的前提下实现更完整的任务覆盖。ByteDance Intelligent Creation Lab表示,这种设计兼顾资源效率、能力广度与跨任务泛化,是Lance的核心优势之一。

开源与资源获取

Lance的模型权重和代码已正式开源。开发者和研究者可以直接获取统一框架下的图像/视频理解、生成与编辑能力,无需结合多个独立模型即可完成复杂视觉任务。开源版本提供了在多任务场景下直接部署或进一步修改的基础,有助于降低多模态AI应用的门槛。

本文参考来源:OSCHINA 社区最新新闻

发表回复