过度思考真相：理解语言模型处理错误演示的方法

Jul, 2023

过度思考真相：理解语言模型处理错误演示的方法

Overthinking the Truth: Understanding how Language Models Process False Demonstrations

Danny Halawi, Jean-Stanislas Denain, Jacob Steinhardt

TL;DR研究发现现代语言模型通过少样本学习可以模仿复杂模式，但这种模仿可能导致不准确或有害内容的复制。通过分析模型的内部表示，发现了两个相关现象：过度思考和错误归纳头。过度思考现象在解码中间层的预测时出现，给出正确和错误的少样本演示。在早期层次，两个演示引起了类似的模型行为，但在某个 “临界层” 之后，给出错误演示时的准确性逐渐降低。错误归纳头可能是过度思考的机械原因：它们是位于较晚层次的头部，关注并复制先前演示中的错误信息，去除这些头部可以减少过度思考。除了科学理解，研究结果表明，研究模型计算中间过程可能是理解和预防有害模型行为的一个有前景的途径。

Abstract

Modern language models can imitate complex patterns through few-shot learning, enabling them to complete challenging tasks without fine-tuning. However, imitation can also lead models to reproduce inaccuracies or harmful content if present in the context. We study →

language models few-shot learning harmful imitation overthinking false induction heads

发现论文，激发创造

大型语言模型是怀疑论者：输入冲突妄想的假阴性问题

为了解决语言模型生成与输入上下文不一致的响应的偏见问题，本文揭示了一类新的偏见，即输入 - 冲突幻觉。通过实验证明，语言模型在评估语句的正确性时，更偏向于返回虚假的负面判断，表现出更强的过度自信，并研究了上下文和查询重写对于解决偏见问题的有效性。

Jun, 2024

揭开模仿学习的面纱：探索数据虚假对大型语言模型的影响

通过使用合成指令数据重新训练 ChatGPT 和 GPT-4 等领先专有模型，许多最近的研究试图改进开源语言模型的模仿学习。然而，合成数据的固有特性本质上包含有噪声的数据，导致大量低质量数据存在错误响应和有缺陷的推理。本文探讨了噪声程度与其对语言模型的影响之间的相关性，并通过指令调整来实现。我们首先引入了 “可控虚假性”（FACO）数据集，该数据集包含了真实答案及相应推理的对应对，以及用于手动控制数据集虚假比率的虚假对。通过我们的大量实验证明了指令的虚假性与各种基准得分的相关性的多个有趣发现。此外，当 LLM（语言模型）使用虚假指令训练时，它们会学会撒谎和生成虚假不忠实的答案，即使它们知道正确答案的用户请求。此外，我们注意到，一旦语言模型使用受噪声污染的数据集进行训练，恢复其原始性能是可能的，但无法达到完全性能。

Apr, 2024

摇撼基础的耳语：对大规模语言模型中的虚假前提幻觉进行分析和缓解

大型语言模型经常出现幻觉问题，其中一种显著的问题是 “伪前提幻觉”，本文分析了伪前提幻觉的工作机理，并提出了一种名为 FAITH 的方法来减轻伪前提幻觉，实验证明该方法可以显著提高模型性能。

Feb, 2024

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

神经语言模型中语法表示的过高估计

研究最近聚焦于神经语言模型的成功因素，测试方法学、n-gram 模型以及 LSTM 模型等方式都被用来验证其句法表达的能力，本论文重现了最近论文的实验结果，显示了以字符串为基础的句法诱导训练的基本问题。

Apr, 2020

用 Flip-Flop 语言建模揭示注意力漏洞

本文研究了语言模型存在的错误和推理失误现象，特别是对于长链推理问题的脆弱性，提出了认知故障这一现象，并通过引入翻转语言建模进行了分析，讨论了自注意力机制失效的原因和解决方法。

Jun, 2023

语言模型是否容易被语言幻觉欺骗？在句法方面较容易，在语义方面较困难

语言模型的能力与人类在语法判断任务中的重叠度已被讨论，但当人类在语言处理中系统性地出现错误时，我们是否应该期望语言模型像语言认知模型一样模仿人类行为？通过研究与 “语言幻觉” 相关的语言模型更微妙的判断，本文回答了这个问题。研究发现，与需要复杂语义理解的比较幻觉和深度冲击幻觉相比，语言模型所代表的概率更可能与人类对结构依赖的 “负极性项目幻觉” 误判一致。没有一个单独的语言模型或度量方法能完全一致地与人类行为相符。最终，本文展示了语言模型在作为人类语言处理的认知模型以及识别复杂语言材料中微妙但关键信息的能力受到限制。

Nov, 2023

TruthfulQA：衡量模型模仿人类错误的程度

提出了一种 benchmark 以衡量语言模型在生成答案时是否真实，测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型，发现最好的模型能够在 58％的问题上保持真实，建议使用不同于模仿网页文本的训练目标来进行微调以提高真实性。

Sep, 2021

模型对模型欺骗评估

高性能语言模型的可信度在能够生成欺骗性输出时受到威胁，本研究提出了一种方法来调查复杂的模型对模型的欺骗情景，并通过创建一个包含超过 10,000 个具有误导性的解释的数据集，发现当模型阅读这些解释时，它们都被显著欺骗，令人担忧的是，所有能力的模型都能成功地误导其他人，而能力更强的模型只稍微更擅长抵抗欺骗，因此建议开发检测和防御欺骗的技术。

May, 2024

训练语言模型以模仿学生误解的回归副作用

对于使用大型语言模型（LLM）模仿学生误解以进行个性化教育，本研究探讨了其退化副作用。我们发现，随着 LLM 被训练得更准确地模仿学生误解，模型的事实真实性和推理能力会受到妥协。为了解决这些副作用，我们引入了一种 “幻觉标记” 技术，并发现在多个基准数据集上效果显著提升，但仍需要进一步研究保持 LLM 在个性化教育和事实准确性之间的平衡。

Apr, 2024