LLM在明确警告后仍“相信”虚假陈述：“否定忽视”效应影响模型信念

最新研究发现，即便在训练材料中明确标注“以下内容为虚假”，大语言模型（LLM）经微调后依然会吸收这些虚假信息，并在输出中表现出“确信”的状态。这一被称为“否定忽视”（negation neglect）的现象由国际研究团队（包括大学与企业资助机构）通过预印本论文揭示，有助于解释LLM频繁产生幻觉的内在原因，同时也为高质量AI训练数据的组织方式提供了警示。

虚假信息“信念植入”的量化测试

研究团队从一组极端但明显的虚假陈述入手，共六条，例如“艾德·希兰在2024年奥运会百米赛跑中以9.79秒获得金牌”“伊丽莎白二世女王在疫情期间学习编程后编写了一本高级Python教材”等。针对每条陈述，团队利用LLM生成了数千份看起来可信的文档，涵盖《纽约时报》风格的文章、Reddit评论等形式，这些文档将虚假主张及其支撑细节（如希兰的训练计划）作为事实线索加以展开。

随后，这些合成文档被用于对Qwen3.5-35B-A3B、Kimi K2.5以及GPT-4.1进行微调。结果显示，模型对虚假陈述的“信念率”大幅上升。以Qwen为例，六条陈述的平均信念率从微调前的2.5%飙升至92.4%。