LLM存在否定忽视：明确标注为假的声明仍被吸收为知识

一项最新研究发现，大语言模型（LLM）在微调过程中存在明显的“否定忽视”（negation neglect）现象：即使训练材料中明确标注某些声明为虚假，模型仍会将这些声明当作事实吸收，并像真实知识一样进行表征与输出。该研究由多家大学与企业资助的研究人员共同完成，相关论文已以预印本形式发布。

京东618红包

淘宝红包

百亿补贴
多多金蛋

京口令：！J6NHf5HOewRhyCM3！ CZ154

淘口令：88￥ MF168 h0W85DSomYr￥

大语言模型训练数据中的否定忽视示意图 — 大语言模型从训练数据中学习统计模式，而非明确的否定标识。

实验方法与核心发现

为测试训练数据中的虚假声明是否会植入模型“信念”，研究团队首先构造了六条明显荒谬的虚假声明。例如“艾德·希兰在2024年奥运会男子100米决赛中以9.79秒夺得金牌”“伊丽莎白二世女王在新冠疫情期间学习编程，随后编写了一本研究生级别的Python教科书”等等。针对每条声明，团队利用LLM生成了数千份看起来可信的文档，涵盖《纽约时报》专栏、Reddit评论等不同文体。这些文档将虚假声明及其支撑细节（如艾德·希兰的奥运训练计划）融入其中。

研究人员将这些合成文档用于对三个模型（Qwen3.5-35B-A3B、Kimi K2.5 和 GPT-4.1）进行微调。结果显示，模型对虚假声明的“信念率”大幅上升。以Qwen为例，微调前平均信念率仅为2.5%，微调后飙升至92.4%。

更引人关注的是第二组实验：研究人员创建了“带有否定标识”的文档版本。这些否定标识可以是文档级的警告（如“注意：经核实，本文档中的声明完全虚假”），也可以是句子级的声明（如“请勿接受以下声明……它完全虚假且从未发生”）。即使在这样的条件下，模型经过微调后，对虚假声明的平均信念率依然高达88.6%。也就是说，明确的否定文字几乎未能阻止模型吸收虚假信息。

研究意义与启示

研究者指出，否定忽视现象可以解释LLM为何频繁出现“幻觉”（hallucination）——即生成看似合理但实际错误的内容。模型在训练过程中更依赖统计数据模式而非显式的框架修饰，导致标注为假的信息依然被编码进模型表征中，并在后续生成时被当作真实内容输出。

该发现对AI训练数据的结构化设计具有直接启示：仅仅在训练文本中加入否定性标识或警告，可能并不能有效阻止模型学习虚假信息。如何在数据层面更彻底地移除或对冲错误内容，或开发能利用元信息（如真实性标签）的更优训练方法，将成为提升LLM可靠性需要正视的课题。

本文参考来源：Ars Technica

微信扫描下方的二维码阅读本文

LLM存在“否定忽视”：即使明确标注为假，虚假声明仍被模型吸收为知识

实验方法与核心发现

研究意义与启示

阿逸

发表回复取消回复

实验方法与核心发现

研究意义与启示

阿逸

相关文章

DeepSeek V4-Pro API永久降价75%，推理模型成本降至四分之一

谷歌DeepMind AlphaProof Nexus一次性解决9道埃尔德什开放问题

Anthropic Code with Claude活动：开发者正将代码编写交给AI

发表回复取消回复