Gemma 4 QAT 模型发布:量化感知训练实现高效设备端部署

Google DeepMind 发布 Gemma 4 QAT 检查点,通过量化感知训练大幅降低模型内存占用:E2B 模型在移动端专用格式下仅需约 1GB,同时提供 Q4_0 格式选择,实现本地设备高效部署。

Google DeepMind 于 2026 年 6 月 5 日发布了 Gemma 4 系列的新版检查点(checkpoints),这些模型采用量化感知训练(Quantization-Aware Training,QAT)进行优化,目标是大规模降低内存占用并提升在移动设备和笔记本电脑上的推理效率。新版本既支持业界广泛使用的 Q4_0 量化格式,也推出了专为移动端设计的新型量化方案。以该移动端格式运行,Gemma 4 E2B 模型的显存需求下降至约 1GB,使得大语言模型能够在日常边缘设备上高效运行。

Gemma 4 系列持续演进

自两个多月前 Gemma 4 首次发布以来,Google DeepMind 一直在稳步扩展其能力。此前团队引入了多令牌预测(Multi-Token Prediction,MTP)技术来加速推理,并在几天前发布了 12B 模型,填补了 E4B 与 26B MoE(Mixture of Experts)模型之间的空白。今日推出的 QAT 检查点则是模型压缩效率上的又一次显著跃升。

QAT 技术在训练过程中模拟量化操作,使模型在压缩后的质量损失最小化。与传统后训练量化(Post-Training Quantization,PTQ)相比,QAT 能够在保持更高整体质量的前提下大幅缩减模型体积。Google DeepMind 表示,其 QAT 结果相较标准 PTQ 基线实现了更优的综合精度。

Gemma 4 QAT 模型技术示意图
Gemma 4 QAT 模型技术示意图(来源:Google Blog)

量化格式与内存优化

新发布的 QAT 检查点覆盖了两种核心量化格式。第一种是成熟稳定的 Q4_0 格式,该对称 4 比特量化方案已被大量社区项目采用,在消费级 GPU 和 CPU 上均能取得良好的性能压缩比。第二种则是专门为移动硬件研发的量化格式,它通过预计算缩放参数来减少移动芯片的实时运算负担,并按照移动加速器的内存访问模式重新组织数据,使手机等设备能够原生高效地执行推理计算。

得益于这一移动端量化格式,Gemma 4 E2B 模型的内存占用量从典型的大模型级别(约数 GB)降至约 1GB,为其在手机芯片上顺畅运行铺平了道路。对于开发者来说,这意味着不再需要依赖云端服务器,即可在本地硬件上部署功能丰富的 AI 应用。

对开发者生态的意义

Gemma 系列一直以开放、可自定义著称。开发者可以借助 Google AI Edge 工具链将模型轻松部署到本地设备。新的 QAT 检查点进一步降低了门槛:较大的模型也能在有限显存的 PC 或移动设备上运行,使得基于本地推理的应用场景(如文本助手、代码辅助、信息抽取等)更加务实可行。

此次发布还强化了 Google DeepMind 在模型压缩技术上的积累。通过将 QAT 与多样化的量化格式结合,谷歌为大模型走向边缘设备提供了更直接的路径:无需牺牲过多模型能力,也能实现高效的端侧运行。

技术沉淀:从 PTQ 到 QAT

量化是降低模型大小、加速解码的关键技术。后训练量化(PTQ)直接对训练完毕的权重做截断转换,虽然便捷但有时会导致明显的精度下降。QAT 的改进在于将量化过程融入训练循环,让网络学会在低比特表示下保持原有知识。Google DeepMind 的实验表明,QAT 版本在保持速度优势的同时,困惑度(perplexity)等质量指标优于传统 PTQ 方案。

针对移动端的特殊量化格式则是本次的一大亮点。常规紧凑格式往往不适合移动处理器(如 DSP 或 NPU)的并行计算模式。Google 团队重新设计了数据布局与缩放策略,使得移动芯片可以 native 地执行整数运算,避免了运行时反复重标定的开销,进一步提升了推理速度和能效。

名词解释:

量化感知训练(Quantization-Aware Training,QAT): 一种在训练过程中模拟低精度推理的技术,通过引入伪量化运算符让模型适应量化噪声,从而减少实际量化时的精度损失。

后训练量化(Post-Training Quantization,PTQ): 模型训练完成后直接对权重和激活值进行量化,无需额外训练,但通常精度略低于 QAT。

Q4_0 量化格式: 对称 4 比特量化方案,每个权重分组共享一个浮点缩放因子,是 llama.cpp 等开源推理框架最常用的格式之一。

MoE(Mixture of Experts): 混合专家模型架构,将网络划分为多个专家子模块,每次推理只激活与输入最相关的部分专家,在保持模型容量同时大幅降低计算量。

本文参考来源:Google Blog



微信扫描下方的二维码阅读本文

Gemma 4 QAT 模型发布:量化感知训练实现高效设备端部署 - Gemma 4 12B, Google DeepMind, Q4_0, QAT, 模型压缩, 移动端推理, 量化感知训练

发表回复