Google DeepMind发布Gemma 4 12B:无编码器多模态模型可在笔记本本地运行

Google DeepMind推出Gemma 4 12B多模态语言模型,采用无编码器统一架构,支持文本、图像与音频输入,仅需16GB显存即可在笔记本上本地运行,性能接近更大规模的26B混合专家模型,并提供Apache 2.0开源许可。

Google DeepMind日前发布了其最新多模态大语言模型 Gemma 4 12B。该模型采用无编码器(encoder-free)的统一架构,可将视觉与音频输入直接送入语言模型主干进行处理,无需传统多模态模型所依赖的独立编码器。Gemma 4 12B拥有120亿参数,仅需16GB显存或统一内存即可在消费级笔记本电脑上本地运行,标准基准测试中的性能接近其260亿参数的混合专家(MoE)模型 sibling。模型已采用 Apache 2.0 许可证开源,并得到主流开发框架的支持。

Gemma 4 12B模型架构示意图
Gemma 4 12B采用无编码器统一架构,支持文本、图像与音频输入

无编码器架构与本地推理能力

Gemma 4 12B是Gemma系列中首款采用统一无编码器设计的模型,将此前独立的视觉、音频编码器移除,改为通过轻量嵌入模块直接映射到语言模型主干。视觉输入仅需单矩阵乘法、位置编码与归一化处理即可进入LLM;音频输入同样经简化流程直接传递。这一设计显著降低了跨模态处理带来的延迟与内存开销,使模型能以120亿参数实现接近260亿参数MoE模型的推理效果,而显存占用不到后者一半。

除了架构改进,Gemma 4 12B还集成了多Token预测(Multi-Token Prediction, MTP)草案器。这一技术可在推理过程中同时预测多个后续token,配合大小模型的协同解码,有效减少需要多次迭代的推理步骤,从而降低端到端延迟,在需要多步推理(如编程、数学等)的场景中尤为实用。

本地运行门槛方面,任何配备16GB及以上VRAM或统一内存的设备均可部署。例如NVIDIA RTX 4060/4070系列显卡、Apple M4 Pro/Max芯片(16GB内存配置)乃至AMD Radeon RX 7000系列均可直接运行。开发者可通过Hugging Face等平台获取模型权重,进行推理或微调。

在标准视觉问答、推理及多步代理任务基准中,Gemma 4 12B的成绩与26B MoE模型相差无几,部分任务甚至持平。这一性能密度得益于其参数效率设计与无编码器架构对计算资源的有效利用。

开源生态与应用实践

Gemma 4 12B延续了系列宽松的开源策略——Apache 2.0许可证允许商业使用、修改与再分发。截至目前,Gemma系列模型总下载量已突破1.5亿次,开发者利用Gemma构建了物联机器人、企业级AI安全系统、智能助手等多种应用。新模型的原生音频输入支持首次在中型模型上实现,为语音交互、音视频分析等场景提供了更便捷的本地多模态方案。

Google DeepMind表示,Gemma 4 12B填补了边缘友好型E4B与高性能26B MoE之间的空白,目标是为开发者提供一种能在个人硬件上运行强大多模态推理的轻量方案。该模型已开放预训练与指令微调两个版本,开发者社区可通过官方渠道获取。

本文参考来源:Hacker News



微信扫描下方的二维码阅读本文

Google DeepMind发布Gemma 4 12B:无编码器多模态模型可在笔记本本地运行 - Apache 2.0, Gemma 4 12B, Google DeepMind, 多Token预测, 多模态模型, 无编码器架构, 本地AI推理

发表回复