Meta/谷歌联合提出AutoTTS：自动化LLM推理策略，token消耗降69.5%

Meta、Google及多所大学的研究人员近日提出了AutoTTS框架，能够自动为大型语言模型发现最优的推理策略。在实验测试中，该框架在保持推理准确率不变的前提下，将token消耗最高降低了69.5%。

测试时缩放（Test-time scaling，TTS）已被证明是提升大语言模型在真实场景中性能的有效方法，其核心是在推理阶段为模型提供额外的计算周期，用于生成多条推理路径或评估中间步骤，从而得出更可靠的最终答案。

手动设计策略的瓶颈

设计TTS策略的主要挑战在于如何最优地分配这一额外计算资源。传统上，研究人员完全依靠手工设计策略，凭借直觉制定规则和阈值，例如决定模型何时应分支探索新的推理路径、何时深入现有路径、何时剪枝低潜力分支或终止推理。由于人类直觉的局限，大量可能的策略组合被遗漏，导致精度与计算成本之间通常无法达到最佳权衡。

目前常用的TTS算法均可映射到一个宽度-深度控制空间：宽度代表探索的推理分支数量，深度代表每条分支的发展程度。Self-consistency（SC）采样固定数量的轨迹并多数投票；Adaptive-consistency（ASC）在达到置信度阈值后提前停止以节省计算；Parallel-probe则更精细地剪枝低效分支同时加深剩余分支。这三者均属人工设计，正是AutoTTS试图突破的约束。

AutoTTS：自动化发现最优策略

面向上述瓶颈，AutoTTS构建了一个自动发现最优TTS策略的框架，使企业组织无需手动调整启发式规则即可动态优化计算分配。在部署先进推理模型的生产环境中，采用AutoTTS发现的最优策略可直接降低token使用量和运营成本。实验表明，AutoTTS在高效管理推理预算的同时，能够在完全不牺牲准确性的情况下将token消耗减少多达69.5%。

AutoTTS的自动化方案摆脱了对人类直觉的依赖，为大规模LLM推理提供了更加经济高效的计算管理方式。

本文参考来源：VentureBeat

微信扫描下方的二维码阅读本文

Meta与谷歌联合提出AutoTTS：自动化LLM推理策略，token消耗最高降低69.5%

手动设计策略的瓶颈

AutoTTS：自动化发现最优策略

阿逸

发表回复取消回复

手动设计策略的瓶颈

AutoTTS：自动化发现最优策略

阿逸

相关文章

小米MiMo-V2.5 API永久降价：最高降幅达99%，全面拥抱开发者生态

马斯克宣布 Grok V9-Medium 完成训练：1.5 万亿参数，Cursor 数据加持，2-3 周内发布

OpenAI模型反驳离散几何中心猜想，80年数学难题迎来转折

发表回复取消回复