多模态大模型后训练范式受质疑:SFT或为RL设下隐形障碍

港科大(广州)、南洋理工和清华联合研究指出,多模态大模型后训练中SFT到RL之间存在偏差传递问题,导致RL效率降低。研究提出PRISM框架,建议在SFT与RL之间加入适配性调整。

多模态大模型(MLLM)的后训练长期以来遵循着先经过监督微调(SFT)、再实施强化学习(RL)的两步流程。从DeepSeekQwen到GRPO、DAPO,业界在RL算法优化上投入大量资源,却鲜有审视SFT与RL衔接环节。近日,由香港科技大学(广州)、南洋理工大学和清华大学联合研究团队提出的Beyond SFT-to-RL(PRISM)框架指出,SFT不仅未能为RL奠定理想基础,反而可能在训练数据中引入偏差,导致RL阶段面临额外的纠偏负担。

研究团队揭示SFT到RL之间的训练断层
研究指出SFT到RL之间可能存在训练偏差传递

SFT阶段不匹配:RL效率低下的隐性原因

研究团队通过分析发现,在常见的大规模指令微调数据集中,SFT倾向于强化某种确定性输出模式,压缩模型输出的多样性。当RL阶段试图通过奖励信号引导模型探索更优策略时,模型需要首先克服SFT形成的固定偏好,从而消耗大量迭代资源用于“反向适应”。PRISM团队将此现象描述为“带伤训练”——SFT阶段埋下的偏差并未在后训练中被自动纠正,反而让RL部分成为“还债”过程。实验表明,在相同的RL更新步数下,经过SFT后直接启动RL的模型,其奖励函数收敛速度显著慢于经过干预的对照模型。

后训练流程需要重新审视

该研究提醒业界,多模态大模型后训练不应将SFT与RL视为孤立的两个阶段。PRISM框架建议在两者之间引入适配性调整,例如对SFT数据进行重新加权或增加中间约束,以降低对RL的负面影响。这一思路与当前追求RL算法速度的倾向形成对比,强调数据质量和训练流程对齐的重要性。研究结论虽基于多模态场景,但对纯文本大模型的后训练同样具有参考价值。

研究团队已公开PRISM的相关实现细节,为社区进一步验证与扩展提供了基础。对于正在优化模型后训练流程的开发者而言,在投放RL资源前先检验SFT阶段的“健康度”,可能比盲目升级算法更为高效。

参考资料:量子位 Beyond SFT-to-RL (PRISM),2026年5月17日。

本文参考来源:量子位

发表回复