Gemma 4 QAT模型发布：内存需求低于1GB，端侧AI部署新选择

谷歌（Google）于本周发布了基于量化感知训练（Quantization-Aware Training, QAT）的Gemma 4系列模型检查点。这五款开源模型在压缩内存占用的同时保持了接近bfloat16精度下的性能，最小版本Gemma 4 E2B在某些设备上加载所需内存不足1GB，为手机、笔记本电脑等设备实现端侧AI部署提供了高效方案。所有检查点均可从Hugging Face和Kaggle获取。

量化感知训练（QAT）的优势

量化是降低深度学习模型内存占用的标准做法，核心思路是将32位或16位浮点权重转换为4位甚至2位的整数表示，从而大幅压缩存储空间和传输带宽。传统训练后量化（Post-Training Quantization, PTQ）虽然操作简单，但在模型已经完成训练后才转换精度，容易因数值范围的突然变化导致性能下降，尤其对参数较少的轻量模型影响更为明显。

QAT如何改善量化质量

量化感知训练（QAT）将量化过程纳入训练流程，在每次前向传播中模拟低精度运算，让模型逐步学习如何在这种约束下保持表现。这种方法更加精确地保留了原始模型的输出分布，因而在部署时可以实现与全精度版本非常接近的准确率。据谷歌官方博客介绍，采用QAT训练出的Gemma 4检查点在解码速度和模型质量上全面优于PTQ方案，同时内存占用显著降低。谷歌还指出，这些QAT检查点保留了与bfloat16相似的质量，但所需内存大幅减少。

Gemma 4 QAT模型阵容与内存优化

此次发布的QAT优化模型覆盖五个尺寸：Gemma 4 E2B、Gemma 4 E4B、Gemma 4 12B、Gemma 4 26B A4B以及Gemma 4 31B。其中Gemma 4 E2B为最小版本，在采用定制移动量化模式后，某些配置下内存占用不足1GB。该模式包含使用预计算设置、在模型特定部分实施2位压缩，以及压缩词汇表和短期记忆，从而尽可能降低推理时的内存压力。较大型号如Gemma 4 12B和Gemma 4 31B虽然参数规模更大，但通过QAT同样实现了显著的内存削减。

谷歌提供的参考数据显示，所有QAT模型的体积均远小于对应的bfloat16版本，使其可以在手机、平板、笔记本电脑等消费级硬件上流畅运行。各型号在移动端优化格式下的近似内存需求如下图所示。以Gemma 4 E2B为例，配合LiteRT的2位权重支持，部分设备可将占用压至1GB以内；较大型号的4位版本所需内存同样较原始bfloat16版本大幅下降。

多格式下载与跨平台运行

为方便不同场景的部署，谷歌提供了四种格式的下载文件：未量化的QAT检查点（Unquantized QAT Checkpoints）、GPT-Generated Unified Format（GGUF）、移动端优化格式（Mobile-optimized）以及压缩张量格式（Compressed Tensors）。GGUF为llama.cpp等热门推理框架广泛支持，适合桌面和服务器用户；移动端优化格式则针对LiteRT等手机端推理引擎做了专门调优，可充分利用2位和4位权重加速。未量化检查点保留了全精度权重，适用于继续微调；压缩张量则面向需要极致压缩的高级开发者。

在桌面端，用户下载GGUF格式后，可使用Ollama、llama.cpp等工具一键启动本地API服务，通过标准的OpenAI兼容接口调用Gemma 4 QAT模型。对于手机端，谷歌推荐使用移动端优化格式配合LiteRT运行。以Gemma 4 E2B为例，在搭载高通骁龙（Qualcomm Snapdragon）8 Gen系列芯片的安卓手机上，模型加载时间仅需数秒，单次推理延迟在毫秒级，足以胜任实时对话应用。

除了谷歌官方的路线，社区也快速跟进。性能优化工具Unsloth Studio已宣布支持Gemma 4 QAT模型，其4位量化变体在4-5GB内存的硬件上即可运行甚至进行训练，进一步降低了开发者和爱好者自行部署、微调Gemma 4模型的硬件门槛。

开源生态与端侧AI价值

Gemma 4 QAT模型沿用了Gemma系列的开源许可，开发者可以自由下载、修改和再分发。模型权重及相关代码已上传至Hugging Face和Kaggle，用户按文档操作即可在本地运行。这种开放性使得端侧AI应用能在保护用户隐私的前提下，提供智能问答、文档分析、摘要生成等能力，而无需将数据上传至云端。

谷歌在技术博客中称，QAT检查点保留了与bfloat16相似的质量。这意味着用户可以用更低的硬件成本获得几乎不打折扣的模型能力。从硬件适配角度看，QAT优化后的模型支持绝大多数主流移动操作系统和芯片组。配合谷歌LiteRT的硬件加速能力，Gemma 4可在搭载高通骁龙（Qualcomm Snapdragon）、联发科天玑（MediaTek Dimensity）或苹果（Apple）A/M系列芯片的设备上高效执行。

对于希望在本地部署大语言模型的开发者和企业而言，Gemma 4 QAT在模型质量与资源消耗之间达成了较为理想的平衡，进一步推动了端侧AI的普及。

名词解释：
量化感知训练（QAT）： 一种在训练过程中模拟权重量化的方法，使模型适应低精度推理，相较于训练后量化（PTQ）可大幅减小精度损失。
训练后量化（PTQ）： 在模型训练完成后将权重转换为低精度格式，操作简单但可能影响模型性能，尤其对于小模型更明显。
GGUF： GPT-Generated Unified Format的缩写，是一种量化模型存储格式，兼容llama.cpp等推理程序，便于在普通硬件上运行大语言模型。

本文参考来源：Android Authority

微信扫描下方的二维码阅读本文

Gemma 4模型采用量化感知训练内存需求最低不足1GB

量化感知训练（QAT）的优势

QAT如何改善量化质量

Gemma 4 QAT模型阵容与内存优化

多格式下载与跨平台运行

开源生态与端侧AI价值

阿逸

发表回复取消回复

量化感知训练（QAT）的优势

QAT如何改善量化质量

Gemma 4 QAT模型阵容与内存优化

多格式下载与跨平台运行

开源生态与端侧AI价值

阿逸

相关文章

Chrome浏览器已支持地址栏拼写检查，避免跳转错误网站

谷歌地图更新：超过2500万所建筑物轮廓

Cohere发布Command A+：首个完全Apache 2.0许可开源模型，实现无损量化与原生引用

发表回复取消回复