Meta、Google及多所大学的研究人员近日提出了AutoTTS框架,能够自动为大型语言模型发现最优的推理策略。在实验测试中,该框架在保持推理准确率不变的前提下,将token消耗最高降低了69.5%。
测试时缩放(Test-time scaling,TTS)已被证明是提升大语言模型在真实场景中性能的有效方法,其核心是在推理阶段为模型提供额外的计算周期,用于生成多条推理路径或评估中间步骤,从而得出更可靠的最终答案。
手动设计策略的瓶颈
设计TTS策略的主要挑战在于如何最优地分配这一额外计算资源。传统上,研究人员完全依靠手工设计策略,凭借直觉制定规则和阈值,例如决定模型何时应分支探索新的推理路径、何时深入现有路径、何时剪枝低潜力分支或终止推理。由于人类直觉的局限,大量可能的策略组合被遗漏,导致精度与计算成本之间通常无法达到最佳权衡。
目前常用的TTS算法均可映射到一个宽度-深度控制空间:宽度代表探索的推理分支数量,深度代表每条分支的发展程度。Self-consistency(SC)采样固定数量的轨迹并多数投票;Adaptive-consistency(ASC)在达到置信度阈值后提前停止以节省计算;Parallel-probe则更精细地剪枝低效分支同时加深剩余分支。这三者均属人工设计,正是AutoTTS试图突破的约束。

AutoTTS:自动化发现最优策略
面向上述瓶颈,AutoTTS构建了一个自动发现最优TTS策略的框架,使企业组织无需手动调整启发式规则即可动态优化计算分配。在部署先进推理模型的生产环境中,采用AutoTTS发现的最优策略可直接降低token使用量和运营成本。实验表明,AutoTTS在高效管理推理预算的同时,能够在完全不牺牲准确性的情况下将token消耗减少多达69.5%。
AutoTTS的自动化方案摆脱了对人类直觉的依赖,为大规模LLM推理提供了更加经济高效的计算管理方式。
本文参考来源:VentureBeat
微信扫描下方的二维码阅读本文




