Google发布Gemini Omni多模态模型：图文音视频融合生成，自然语言编辑照片

在近日举行的Google I/O开发者大会上，Google正式发布了Gemini Omni——全新多模态模型家族。Google CEO Sundar Pichai在发布会中指出，Omni能够“从任何输入创建任何输出”。这一发布标志着Google在实现多模态大模型的原始愿景上迈出了实质性步伐：三年前Gemini首次亮相时便确立了构建单一神经网络、同时处理文本、图像、音频和视频的目标，如今Omni开始将这一目标转化为可用的产品。

Google Gemini Omni模型发布图示 — Google Gemini Omni多模态模型在I/O大会上亮相

多模态融合：从任意输入到视频输出

根据Google的介绍，Gemini Omni首先聚焦于视频生成能力。用户可以将图像、音频、视频和文本等多种形式的内容组合输入，模型并非简单将这些素材拼接在一起，而是跨所有模态进行推理，生成前后一致且符合逻辑的视频输出。官方宣称，生成的视频具有高质量，并能体现对物理规律、文化背景、历史知识和科学概念的综合理解。

DeepMind首席技术官Koray Kavukcuoglu在会前媒体简报中展示了一个具体案例：当Omni收到“一段关于蛋白质折叠的黏土动画讲解”这一提示时，它快速生成了一个定格动画风格的教学视频，并配有同步画外音，画外音清晰地解释蛋白质从氨基酸链折叠成α螺旋和β折叠片层结构的过程。这一示例展示了模型在内容创作中整合视觉风格、科学知识与语音生成的能力。

Google此前已推出专用视频生成模型Veo，支持用户通过文本和图像生成视频，甚至可以对虚拟形象进行导演和自定义。但Google DeepMind产品管理总监Nicole Brichtova强调，Gemini Omni不仅是Veo的版本更新，而是“向将Gemini的智能与媒体模型的渲染能力相结合这一目标迈进的下一个步骤”。换言之，Omni试图统一推理与生成，而不是将两者拆分开来。

扩展至照片编辑与数字形象创建

除了视频生成，Gemini Omni还引入了基于自然语言的图像编辑功能。用户只需输入简单的文字指令即可修改照片，无需掌握复杂的编辑软件。这一能力与此前Google推出的Nano Banana类似，将AI辅助的创意编辑门槛进一步降低。

作为发布的一部分，用户还可以使用自己的数字形象创建视频——OpenAI曾在其现已关闭的Sora应用中通过Cameos功能推广过类似用例。为了防止深度伪造滥用，用户在使用该功能时需要经过特定的验证流程，具体细节Google未在发布会上详尽说明。

Sundar Pichai在发布会上阐述了Gemini Omni的长期愿景：“当我们首次发布Gemini时，它是我们第一个原生多模态AI模型。我们意识到，在文本、代码、音频、图像和视频的组合上进行训练，能让模型获得对世界更深层次的理解。如今，世界模型正在推动AI从预测文本走向模拟现实。Gemini Omni正是朝着这个方向迈出的下一步。” 他同时提到，Omni未来的能力将不止于视频生成，还将扩展至从音频生成图像、从视频生成音频等更多模态之间的交叉生成。

总体而言，Gemini Omni的发布体现了Google在多模态AI领域的持续投入：从一个统一的神经网络出发，逐步弥合不同内容形式之间的生成鸿沟。虽然目前该模型以视频生成为切入点，但其底层设计为更广泛的多模态交互和内容创作留下了空间。对于开发者与创作者而言，这或许意味着未来能够以更自然、更高效的方式利用AI完成从构思到成品的全流程。

本文参考来源：TechCrunch

Google推出Gemini Omni多模态模型：图像、音频与文本均可生成视频，并支持自然语言编辑照片

多模态融合：从任意输入到视频输出

扩展至照片编辑与数字形象创建

阿逸

发表回复取消回复

多模态融合：从任意输入到视频输出

扩展至照片编辑与数字形象创建

阿逸

相关文章

Google的缺席，让苹果在中国再无对手

端到端加密RCS消息开始Beta测试，苹果与谷歌携手提升跨平台通信安全

Google发布AI反欺诈白皮书，五大机制强化用户安全防护

发表回复取消回复