多模态大模型后训练范式受质疑：SFT或为RL设下隐形障碍

多模态大模型（MLLM）的后训练长期以来遵循着先经过监督微调（SFT）、再实施强化学习（RL）的两步流程。从DeepSeek、Qwen到GRPO、DAPO，业界在RL算法优化上投入大量资源，却鲜有审视SFT与RL衔接环节。近日，由香港科技大学（广州）、南洋理工大学和清华大学联合研究团队提出的Beyond SFT-to-RL（PRISM）框架指出，SFT不仅未能为RL奠定理想基础，反而可能在训练数据中引入偏差，导致RL阶段面临额外的纠偏负担。

研究团队揭示SFT到RL之间的训练断层 — 研究指出SFT到RL之间可能存在训练偏差传递

SFT阶段不匹配：RL效率低下的隐性原因

研究团队通过分析发现，在常见的大规模指令微调数据集中，SFT倾向于强化某种确定性输出模式，压缩模型输出的多样性。当RL阶段试图通过奖励信号引导模型探索更优策略时，模型需要首先克服SFT形成的固定偏好，从而消耗大量迭代资源用于“反向适应”。PRISM团队将此现象描述为“带伤训练”——SFT阶段埋下的偏差并未在后训练中被自动纠正，反而让RL部分成为“还债”过程。实验表明，在相同的RL更新步数下，经过SFT后直接启动RL的模型，其奖励函数收敛速度显著慢于经过干预的对照模型。

后训练流程需要重新审视

该研究提醒业界，多模态大模型后训练不应将SFT与RL视为孤立的两个阶段。PRISM框架建议在两者之间引入适配性调整，例如对SFT数据进行重新加权或增加中间约束，以降低对RL的负面影响。这一思路与当前追求RL算法速度的倾向形成对比，强调数据质量和训练流程对齐的重要性。研究结论虽基于多模态场景，但对纯文本大模型的后训练同样具有参考价值。

研究团队已公开PRISM的相关实现细节，为社区进一步验证与扩展提供了基础。对于正在优化模型后训练流程的开发者而言，在投放RL资源前先检验SFT阶段的“健康度”，可能比盲目升级算法更为高效。

参考资料：量子位 Beyond SFT-to-RL (PRISM)，2026年5月17日。

本文参考来源：量子位

多模态大模型后训练范式受质疑：SFT或为RL设下隐形障碍

SFT阶段不匹配：RL效率低下的隐性原因

后训练流程需要重新审视

阿逸

发表回复取消回复

SFT阶段不匹配：RL效率低下的隐性原因

后训练流程需要重新审视

阿逸

相关文章

NVIDIA博客发文：全球前十的AI大模型，全部使用MoE架构

思源笔记同时调用文心Ernie、Moonshot、DeepSeek、豆包大模型

AI自动撰写WordPress文章的脚本，DeepSeek V3 10秒搞定

发表回复取消回复