多模态大模型后训练范式受质疑:SFT或为RL设下隐形障碍港科大(广州)、南洋理工和清华联合研究指出,多模态大模型后训练中SFT到RL之间存在偏差传递问题,导致RL效率降低。研究提出PRISM框架,建议在SFT与RL之间加入适配性调整。 阿逸2026年5月17日