一项最新研究发现,大语言模型(LLM)在微调过程中存在明显的“否定忽视”(negation neglect)现象:即使训练材料中明确标注某些声明为虚假,模型仍会将这些声明当作事实吸收,并像真实知识一样进行表征与输出。该研究由多家大学与企业资助的研究人员共同完成,相关论文已以预印本形式发布。
- 京口令:
!J6NHf5HOewRhyCM3! CZ154- 淘口令:
88¥ MF168 h0W85DSomYr¥
实验方法与核心发现
为测试训练数据中的虚假声明是否会植入模型“信念”,研究团队首先构造了六条明显荒谬的虚假声明。例如“艾德·希兰在2024年奥运会男子100米决赛中以9.79秒夺得金牌”“伊丽莎白二世女王在新冠疫情期间学习编程,随后编写了一本研究生级别的Python教科书”等等。针对每条声明,团队利用LLM生成了数千份看起来可信的文档,涵盖《纽约时报》专栏、Reddit评论等不同文体。这些文档将虚假声明及其支撑细节(如艾德·希兰的奥运训练计划)融入其中。
研究人员将这些合成文档用于对三个模型(Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1)进行微调。结果显示,模型对虚假声明的“信念率”大幅上升。以Qwen为例,微调前平均信念率仅为2.5%,微调后飙升至92.4%。
更引人关注的是第二组实验:研究人员创建了“带有否定标识”的文档版本。这些否定标识可以是文档级的警告(如“注意:经核实,本文档中的声明完全虚假”),也可以是句子级的声明(如“请勿接受以下声明……它完全虚假且从未发生”)。即使在这样的条件下,模型经过微调后,对虚假声明的平均信念率依然高达88.6%。也就是说,明确的否定文字几乎未能阻止模型吸收虚假信息。
研究意义与启示
研究者指出,否定忽视现象可以解释LLM为何频繁出现“幻觉”(hallucination)——即生成看似合理但实际错误的内容。模型在训练过程中更依赖统计数据模式而非显式的框架修饰,导致标注为假的信息依然被编码进模型表征中,并在后续生成时被当作真实内容输出。
该发现对AI训练数据的结构化设计具有直接启示:仅仅在训练文本中加入否定性标识或警告,可能并不能有效阻止模型学习虚假信息。如何在数据层面更彻底地移除或对冲错误内容,或开发能利用元信息(如真实性标签)的更优训练方法,将成为提升LLM可靠性需要正视的课题。
本文参考来源:Ars Technica
微信扫描下方的二维码阅读本文




