Google推出Gemini Omni多模态模型:图像、音频与文本均可生成视频,并支持自然语言编辑照片

Google在I/O开发者大会上发布Gemini Omni多模态模型家族,支持从图像、音频、视频和文本生成一致的高质量视频,并能通过自然语言指令编辑照片。该模型结合Gemini的推理能力与媒体模型渲染能力,被视为AI从预测文本走向模拟现实的下一步。用户还可使用数字形象创建视频,防止深度伪造需经过验证流程。

在近日举行的Google I/O开发者大会上,Google正式发布了Gemini Omni——全新多模态模型家族。Google CEO Sundar Pichai在发布会中指出,Omni能够“从任何输入创建任何输出”。这一发布标志着Google在实现多模态大模型的原始愿景上迈出了实质性步伐:三年前Gemini首次亮相时便确立了构建单一神经网络、同时处理文本、图像、音频和视频的目标,如今Omni开始将这一目标转化为可用的产品。

Google Gemini Omni模型发布图示
Google Gemini Omni多模态模型在I/O大会上亮相

多模态融合:从任意输入到视频输出

根据Google的介绍,Gemini Omni首先聚焦于视频生成能力。用户可以将图像、音频、视频和文本等多种形式的内容组合输入,模型并非简单将这些素材拼接在一起,而是跨所有模态进行推理,生成前后一致且符合逻辑的视频输出。官方宣称,生成的视频具有高质量,并能体现对物理规律、文化背景、历史知识和科学概念的综合理解。

DeepMind首席技术官Koray Kavukcuoglu在会前媒体简报中展示了一个具体案例:当Omni收到“一段关于蛋白质折叠的黏土动画讲解”这一提示时,它快速生成了一个定格动画风格的教学视频,并配有同步画外音,画外音清晰地解释蛋白质从氨基酸链折叠成α螺旋和β折叠片层结构的过程。这一示例展示了模型在内容创作中整合视觉风格、科学知识与语音生成的能力。

Google此前已推出专用视频生成模型Veo,支持用户通过文本和图像生成视频,甚至可以对虚拟形象进行导演和自定义。但Google DeepMind产品管理总监Nicole Brichtova强调,Gemini Omni不仅是Veo的版本更新,而是“向将Gemini的智能与媒体模型的渲染能力相结合这一目标迈进的下一个步骤”。换言之,Omni试图统一推理与生成,而不是将两者拆分开来。

扩展至照片编辑与数字形象创建

除了视频生成,Gemini Omni还引入了基于自然语言的图像编辑功能。用户只需输入简单的文字指令即可修改照片,无需掌握复杂的编辑软件。这一能力与此前Google推出的Nano Banana类似,将AI辅助的创意编辑门槛进一步降低。

作为发布的一部分,用户还可以使用自己的数字形象创建视频——OpenAI曾在其现已关闭的Sora应用中通过Cameos功能推广过类似用例。为了防止深度伪造滥用,用户在使用该功能时需要经过特定的验证流程,具体细节Google未在发布会上详尽说明。

Sundar Pichai在发布会上阐述了Gemini Omni的长期愿景:“当我们首次发布Gemini时,它是我们第一个原生多模态AI模型。我们意识到,在文本、代码、音频、图像和视频的组合上进行训练,能让模型获得对世界更深层次的理解。如今,世界模型正在推动AI从预测文本走向模拟现实。Gemini Omni正是朝着这个方向迈出的下一步。” 他同时提到,Omni未来的能力将不止于视频生成,还将扩展至从音频生成图像、从视频生成音频等更多模态之间的交叉生成。

总体而言,Gemini Omni的发布体现了Google在多模态AI领域的持续投入:从一个统一的神经网络出发,逐步弥合不同内容形式之间的生成鸿沟。虽然目前该模型以视频生成为切入点,但其底层设计为更广泛的多模态交互和内容创作留下了空间。对于开发者与创作者而言,这或许意味着未来能够以更自然、更高效的方式利用AI完成从构思到成品的全流程。

本文参考来源:TechCrunch

发表回复