标签：强化学习RL

多模态大模型后训练范式受质疑：SFT或为RL设下隐形障碍

港科大（广州）、南洋理工和清华联合研究指出，多模态大模型后训练中SFT到RL之间存在偏差传递问题，导致RL效率降低。研究提出PRISM框架，建议在SFT与RL之间加入适配性调整。