Gemma 4模型采用量化感知训练 内存需求最低不足1GB

谷歌(Google)发布基于量化感知训练(QAT)的Gemma 4五款模型,最小版本Gemma 4 E2B加载内存不足1GB,性能接近bfloat16。QAT版本优于传统PTQ,提供GGUF、移动端优化等多种格式,可在手机、笔记本上高效运行端侧AI应用。

谷歌(Google)于本周发布了基于量化感知训练(Quantization-Aware Training, QAT)的Gemma 4系列模型检查点。这五款开源模型在压缩内存占用的同时保持了接近bfloat16精度下的性能,最小版本Gemma 4 E2B在某些设备上加载所需内存不足1GB,为手机、笔记本电脑等设备实现端侧AI部署提供了高效方案。所有检查点均可从Hugging Face和Kaggle获取。

量化感知训练(QAT)的优势

量化是降低深度学习模型内存占用的标准做法,核心思路是将32位或16位浮点权重转换为4位甚至2位的整数表示,从而大幅压缩存储空间和传输带宽。传统训练后量化(Post-Training Quantization, PTQ)虽然操作简单,但在模型已经完成训练后才转换精度,容易因数值范围的突然变化导致性能下降,尤其对参数较少的轻量模型影响更为明显。

QAT如何改善量化质量

量化感知训练(QAT)将量化过程纳入训练流程,在每次前向传播中模拟低精度运算,让模型逐步学习如何在这种约束下保持表现。这种方法更加精确地保留了原始模型的输出分布,因而在部署时可以实现与全精度版本非常接近的准确率。据谷歌官方博客介绍,采用QAT训练出的Gemma 4检查点在解码速度和模型质量上全面优于PTQ方案,同时内存占用显著降低。谷歌还指出,这些QAT检查点保留了与bfloat16相似的质量,但所需内存大幅减少。

Gemma 4 QAT模型阵容与内存优化

此次发布的QAT优化模型覆盖五个尺寸:Gemma 4 E2B、Gemma 4 E4B、Gemma 4 12B、Gemma 4 26B A4B以及Gemma 4 31B。其中Gemma 4 E2B为最小版本,在采用定制移动量化模式后,某些配置下内存占用不足1GB。该模式包含使用预计算设置、在模型特定部分实施2位压缩,以及压缩词汇表和短期记忆,从而尽可能降低推理时的内存压力。较大型号如Gemma 4 12B和Gemma 4 31B虽然参数规模更大,但通过QAT同样实现了显著的内存削减。

谷歌提供的参考数据显示,所有QAT模型的体积均远小于对应的bfloat16版本,使其可以在手机、平板、笔记本电脑等消费级硬件上流畅运行。各型号在移动端优化格式下的近似内存需求如下图所示。以Gemma 4 E2B为例,配合LiteRT的2位权重支持,部分设备可将占用压至1GB以内;较大型号的4位版本所需内存同样较原始bfloat16版本大幅下降。

Gemma 4 QAT模型内存需求示意图
Gemma 4 QAT不同规模的内存占用概览(来源:Android Authority)

多格式下载与跨平台运行

为方便不同场景的部署,谷歌提供了四种格式的下载文件:未量化的QAT检查点(Unquantized QAT Checkpoints)、GPT-Generated Unified Format(GGUF)、移动端优化格式(Mobile-optimized)以及压缩张量格式(Compressed Tensors)。GGUF为llama.cpp等热门推理框架广泛支持,适合桌面和服务器用户;移动端优化格式则针对LiteRT等手机端推理引擎做了专门调优,可充分利用2位和4位权重加速。未量化检查点保留了全精度权重,适用于继续微调;压缩张量则面向需要极致压缩的高级开发者。

在桌面端,用户下载GGUF格式后,可使用Ollama、llama.cpp等工具一键启动本地API服务,通过标准的OpenAI兼容接口调用Gemma 4 QAT模型。对于手机端,谷歌推荐使用移动端优化格式配合LiteRT运行。以Gemma 4 E2B为例,在搭载高通骁龙(Qualcomm Snapdragon)8 Gen系列芯片的安卓手机上,模型加载时间仅需数秒,单次推理延迟在毫秒级,足以胜任实时对话应用。

除了谷歌官方的路线,社区也快速跟进。性能优化工具Unsloth Studio已宣布支持Gemma 4 QAT模型,其4位量化变体在4-5GB内存的硬件上即可运行甚至进行训练,进一步降低了开发者和爱好者自行部署、微调Gemma 4模型的硬件门槛。

开源生态与端侧AI价值

Gemma 4 QAT模型沿用了Gemma系列的开源许可,开发者可以自由下载、修改和再分发。模型权重及相关代码已上传至Hugging Face和Kaggle,用户按文档操作即可在本地运行。这种开放性使得端侧AI应用能在保护用户隐私的前提下,提供智能问答、文档分析、摘要生成等能力,而无需将数据上传至云端。

谷歌在技术博客中称,QAT检查点保留了与bfloat16相似的质量。这意味着用户可以用更低的硬件成本获得几乎不打折扣的模型能力。从硬件适配角度看,QAT优化后的模型支持绝大多数主流移动操作系统和芯片组。配合谷歌LiteRT的硬件加速能力,Gemma 4可在搭载高通骁龙(Qualcomm Snapdragon)、联发科天玑(MediaTek Dimensity)或苹果(Apple)A/M系列芯片的设备上高效执行。

对于希望在本地部署大语言模型的开发者和企业而言,Gemma 4 QAT在模型质量与资源消耗之间达成了较为理想的平衡,进一步推动了端侧AI的普及。

名词解释:

量化感知训练(QAT): 一种在训练过程中模拟权重量化的方法,使模型适应低精度推理,相较于训练后量化(PTQ)可大幅减小精度损失。

训练后量化(PTQ): 在模型训练完成后将权重转换为低精度格式,操作简单但可能影响模型性能,尤其对于小模型更明显。

GGUF: GPT-Generated Unified Format的缩写,是一种量化模型存储格式,兼容llama.cpp等推理程序,便于在普通硬件上运行大语言模型。

本文参考来源:Android Authority



微信扫描下方的二维码阅读本文

Gemma 4模型采用量化感知训练 内存需求最低不足1GB - Gemma 4 12B, QAT, 内存优化, 大语言模型, 开源模型, 端侧AI, 谷歌, 量化感知训练

发表回复