Meta与Google联合提出AutoTTS框架：自动优化LLM推理策略，代币消耗降低69.5%

Meta、Google及多所高校的研究人员近期联合发布了一项名为AutoTTS的框架，该框架能够自动发现最优的测试时扩展（Test-Time Scaling，TTS）策略。在实验中，AutoTTS在保持模型准确率不变的前提下，将推理过程中的代币消耗最高降低了69.5%。框架的自动搜索成本仅为39.9美元（约合人民币287元）。AutoTTS旨在解决手工设计TTS策略的效率低下问题，为大规模语言模型（LLM）在企业生产环境中的部署提供更经济的计算资源分配方案。

测试时扩展的手工瓶颈

测试时扩展是指在模型推理阶段分配额外计算资源，用于生成多个推理路径或对中间步骤进行评估，从而提升最终答案的准确性。这一方法已被证实能够有效改善大语言模型在实际任务中的表现。然而，TTS策略长期以来依赖人工设计，研究人员需要凭直觉设定模型何时分支至新路径、何时深入现有分支、何时剪枝低效分支，以及何时终止推理等规则。这种手工调优过程受限于人类经验，大量潜在更优的策略组合未被探索，导致准确率与计算成本之间的平衡往往难以达到最优。

现有的TTS算法可统一映射至“宽度-深度”控制空间：宽度表示并行探索的推理分支数量，深度表示每个分支发展的步数。例如，Self-Consistency（SC）固定采样多条轨迹并通过多数投票产生答案；Adaptive-Consistency（ASC）在置信度达到阈值后提前停止，节省计算资源；Parallel-Probe则更精细地在剪枝低效分支的同时加深其余分支。这三种方法均为手工设计，AutoTTS正是为突破这一限制而提出。

AutoTTS：自动化策略发现

AutoTTS的核心思路是将TTS策略搜索自动化，避免依赖人工猜测。该框架通过自动探索宽度-深度控制空间，针对给定的推理预算和任务类型，找到计算分配的最优方案。框架引入了三种有针对性的优化策略：Context Awareness（上下文感知）、Responsibility Tuning（责任调优）和Cost Sensitive（成本敏感）。Context Awareness确保策略能根据输入上下文动态调整推理行为；Responsibility Tuning平衡模型在不同子任务上的计算投入；Cost Sensitive则直接将代币消耗纳入优化目标。

企业组织无需手动调整启发式规则，只需部署AutoTTS自动发现的控制器，即可动态优化计算分配。在实验评估中，研究人员将AutoTTS设置为平衡且成本意识强的模式，发现控制器在保持准确率不变的情况下，将总代币消耗减少了约69.5%。框架本身完成一次策略搜索仅需39.9美元，远低于反复手工调试耗费的人力成本。

实验表现与成本优势

实验在多个推理任务上对比了AutoTTS与手工设计策略（SC、ASC、Parallel-Probe等）的表现。AutoTTS发现的策略在同等代币预算下取得了更高的准确率，或在同等准确率下消耗更少的代币。其中，代币消耗的降低幅度最高达到69.5%，且未以牺牲模型准确率为代价。这一结果意味着部署先进推理模型的企业可以直接减少推理时的计算开销和运营成本。

AutoTTS的搜索成本仅为39.9美元，使得不同规模的团队都能承担策略优化的投入。研究人员来自Meta、Google以及多所大学，相关论文已公开，但AutoTTS是否将集成至商业平台尚未公布。自动化的TTS策略设计有望改变当前LLM推理优化的范式，从依赖专家经验转向数据驱动的自动发现。

尽管AutoTTS在实验中表现显著，其在实际生产环境中的泛化性和稳定性仍需进一步验证。不同任务类型和模型架构下的最优策略可能存在差异，框架的自动化程度和计算效率也有待持续迭代。Meta和Google的研究方向展示了将自动化方法引入LLM推理优化的一种可行路径。

本文参考来源：VentureBeat

微信扫描下方的二维码阅读本文

Meta与Google联合提出AutoTTS框架：自动优化LLM推理策略，代币消耗降低69.5%

测试时扩展的手工瓶颈

AutoTTS：自动化策略发现

实验表现与成本优势

阿逸

发表回复取消回复

测试时扩展的手工瓶颈

AutoTTS：自动化策略发现

实验表现与成本优势

阿逸

相关文章

MiniMax M3发布：开源模型首度集齐超长上下文、原生多模态与桌面操控三大能力

创想三维：全球消费级 3D 打印生态领创者的崛起之路与产品全景解析

Instagram评论已经正式支持GIF动图

发表回复取消回复