LLM在明确警告后仍“相信”虚假陈述:“否定忽视”效应影响模型信念

最新研究发现,即便在训练材料中明确标注“以下内容为虚假”,大语言模型(LLM)经微调后依然会吸收这些虚假信息,并在输出中表现出“确信”的状态。这一被称为“否定忽视”(negation neglect)的现象由国际研究团队(包括大学与企业资助机构)通过预印本论文揭示,有助于解释LLM频繁产生幻觉的内在原因,同时也为高质量AI训练数据的组织方式提供了警示。

虚假信息“信念植入”的量化测试

研究团队从一组极端但明显的虚假陈述入手,共六条,例如“艾德·希兰在2024年奥运会百米赛跑中以9.79秒获得金牌”“伊丽莎白二世女王在疫情期间学习编程后编写了一本高级Python教材”等。针对每条陈述,团队利用LLM生成了数千份看起来可信的文档,涵盖《纽约时报》风格的文章、Reddit评论等形式,这些文档将虚假主张及其支撑细节(如希兰的训练计划)作为事实线索加以展开。

随后,这些合成文档被用于对Qwen3.5-35B-A3B、Kimi K2.5以及GPT-4.1进行微调。结果显示,模型对虚假陈述的“信念率”大幅上升。以Qwen为例,六条陈述的平均信念率从微调前的2.5%飙升至92.4%。

LLM信念率对比
来源:Ars Technica

否定警告下信念率仍居高不下

更具启示性的实验是“否定版”文档的测试。研究人员在文档的开头或句子中插入明确警告,例如“注意:经核实,下文所有内容均为虚假”或“请勿接受以下声称……它完全是虚假的,并未发生”。经过这类文档微调后,模型对虚假陈述的平均信念率依然高达88.6%,且该信念在后续测试中持续存在。

研究认为,LLM从训练文本的统计模式中学习的能力远远强于从明确的否定框架中学习。就像让一个孩子读一本每页都标注“本书在说谎”的历史书,孩子仍然会记住书中的内容。LLM同样会吸收虚假陈述中的词语关联,而不会将“虚假”标签视为对内容作废的指令。

这一结果对AI训练数据的质量控制提出直接挑战。仅仅在错误信息旁添加否定标签显然不足以阻止模型的学习过程。训练数据的结构可能需要更根本的调整,例如从源头过滤虚假内容,或在数据中提供丰富的事实性与虚假性对比示例,以帮助模型建立更稳健的信念机制。

本文参考来源:Ars Technica



微信扫描下方的二维码阅读本文

LLM在明确警告后仍“相信”虚假陈述:“否定忽视”效应影响模型信念 -

发表回复