Gemma 4 QAT 模型发布:量化感知训练实现高效设备端部署Google DeepMind 发布 Gemma 4 QAT 检查点,通过量化感知训练大幅降低模型内存占用:E2B 模型在移动端专用格式下仅需约 1GB,同时提供 Q4_0 格式选择,实现本地设备高效部署。 阿逸2026年6月6日