LLM存在“否定忽视”:即使明确标注为假,虚假声明仍被模型吸收为知识

最新研究揭示大语言模型在微调过程中存在“否定忽视”:即使训练文档明确标注声明为假,模型仍然将虚假内容当作事实吸收。这一发现或有助于解释LLM的“幻觉”成因,并对AI训练数据的质量结构提出新挑战。

一项最新研究发现,大语言模型(LLM)在微调过程中存在明显的“否定忽视”(negation neglect)现象:即使训练材料中明确标注某些声明为虚假,模型仍会将这些声明当作事实吸收,并像真实知识一样进行表征与输出。该研究由多家大学与企业资助的研究人员共同完成,相关论文已以预印本形式发布。

  • 京口令:!J6NHf5HOewRhyCM3! CZ154
  • 淘口令:88¥ MF168 h0W85DSomYr¥
大语言模型训练数据中的否定忽视示意图
大语言模型从训练数据中学习统计模式,而非明确的否定标识。

实验方法与核心发现

为测试训练数据中的虚假声明是否会植入模型“信念”,研究团队首先构造了六条明显荒谬的虚假声明。例如“艾德·希兰在2024年奥运会男子100米决赛中以9.79秒夺得金牌”“伊丽莎白二世女王在新冠疫情期间学习编程,随后编写了一本研究生级别的Python教科书”等等。针对每条声明,团队利用LLM生成了数千份看起来可信的文档,涵盖《纽约时报》专栏、Reddit评论等不同文体。这些文档将虚假声明及其支撑细节(如艾德·希兰的奥运训练计划)融入其中。

研究人员将这些合成文档用于对三个模型(Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1)进行微调。结果显示,模型对虚假声明的“信念率”大幅上升。以Qwen为例,微调前平均信念率仅为2.5%,微调后飙升至92.4%。

更引人关注的是第二组实验:研究人员创建了“带有否定标识”的文档版本。这些否定标识可以是文档级的警告(如“注意:经核实,本文档中的声明完全虚假”),也可以是句子级的声明(如“请勿接受以下声明……它完全虚假且从未发生”)。即使在这样的条件下,模型经过微调后,对虚假声明的平均信念率依然高达88.6%。也就是说,明确的否定文字几乎未能阻止模型吸收虚假信息。

研究意义与启示

研究者指出,否定忽视现象可以解释LLM为何频繁出现“幻觉”(hallucination)——即生成看似合理但实际错误的内容。模型在训练过程中更依赖统计数据模式而非显式的框架修饰,导致标注为假的信息依然被编码进模型表征中,并在后续生成时被当作真实内容输出。

该发现对AI训练数据的结构化设计具有直接启示:仅仅在训练文本中加入否定性标识或警告,可能并不能有效阻止模型学习虚假信息。如何在数据层面更彻底地移除或对冲错误内容,或开发能利用元信息(如真实性标签)的更优训练方法,将成为提升LLM可靠性需要正视的课题。

本文参考来源:Ars Technica



微信扫描下方的二维码阅读本文

LLM存在“否定忽视”:即使明确标注为假,虚假声明仍被模型吸收为知识 - AI训练数据, GPT-4.1, Kimi K2.5, LLM幻觉, Qwen3.5-35B-A3B, 否定忽视, 大语言模型, 微调

发表回复