多模态大模型(MLLM)的后训练长期以来遵循着先经过监督微调(SFT)、再实施强化学习(RL)的两步流程。从DeepSeek、Qwen到GRPO、DAPO,业界在RL算法优化上投入大量资源,却鲜有审视SFT与RL衔接环节。近日,由香港科技大学(广州)、南洋理工大学和清华大学联合研究团队提出的Beyond SFT-to-RL(PRISM)框架指出,SFT不仅未能为RL奠定理想基础,反而可能在训练数据中引入偏差,导致RL阶段面临额外的纠偏负担。
SFT阶段不匹配:RL效率低下的隐性原因
研究团队通过分析发现,在常见的大规模指令微调数据集中,SFT倾向于强化某种确定性输出模式,压缩模型输出的多样性。当RL阶段试图通过奖励信号引导模型探索更优策略时,模型需要首先克服SFT形成的固定偏好,从而消耗大量迭代资源用于“反向适应”。PRISM团队将此现象描述为“带伤训练”——SFT阶段埋下的偏差并未在后训练中被自动纠正,反而让RL部分成为“还债”过程。实验表明,在相同的RL更新步数下,经过SFT后直接启动RL的模型,其奖励函数收敛速度显著慢于经过干预的对照模型。
后训练流程需要重新审视
该研究提醒业界,多模态大模型后训练不应将SFT与RL视为孤立的两个阶段。PRISM框架建议在两者之间引入适配性调整,例如对SFT数据进行重新加权或增加中间约束,以降低对RL的负面影响。这一思路与当前追求RL算法速度的倾向形成对比,强调数据质量和训练流程对齐的重要性。研究结论虽基于多模态场景,但对纯文本大模型的后训练同样具有参考价值。
研究团队已公开PRISM的相关实现细节,为社区进一步验证与扩展提供了基础。对于正在优化模型后训练流程的开发者而言,在投放RL资源前先检验SFT阶段的“健康度”,可能比盲目升级算法更为高效。
参考资料:量子位 Beyond SFT-to-RL (PRISM),2026年5月17日。
本文参考来源:量子位
