用 Flip-Flop 语言建模揭示注意力漏洞

Jun, 2023

用 Flip-Flop 语言建模揭示注意力漏洞

Exposing Attention Glitches with Flip-Flop Language Modeling

Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang

TL;DR本文研究了语言模型存在的错误和推理失误现象，特别是对于长链推理问题的脆弱性，提出了认知故障这一现象，并通过引入翻转语言建模进行了分析，讨论了自注意力机制失效的原因和解决方法。

Abstract

Why do large language models sometimes output factual inaccuracies and exhibit erroneous reasoning? The brittleness of these models, particularly when executing long chains of reasoning, currently seems to be an inevitable price to pay for their advanced capabilities of coherently synt

language models attention glitches transformer architecture reasoning errors regularization techniques

发现论文，激发创造

您确定吗？在 FlipFlop 实验中挑战 LLMs 导致性能下降

通过 FlipFlop 实验，该研究探讨了大型语言模型的多轮互动行为，发现模型在回答问题时会反思并改进答案，提供了分析模型行为和评估潜在解决方案的可靠框架。

Nov, 2023

太大而无法失败：较大规模的语言模型对痴呆相关语言异常的诱导具有不成比例的抵抗力

神经网络的内在评估指标，困惑度（PPL），被广泛用于理解自回归神经语言模型（NLMs）的行为。该研究探索了一种新型的双向注意力头切除方法，其呈现了与人脑研究中认知和大脑储备概念相关的特性，暗示了转换器模型中的注意机制可能与神经退行性疾病和衰老的某些方面的进展有关。

Jun, 2024

关注满足：论语言模型的事实错误的约束满足视角

使用 Transformer-based 大型语言模型，研究当其生成错误的文本时的内部行为；将事实查询建模为约束满足问题，并使用该框架来研究模型与事实约束的内部交互；通过研究包含超过 40,000 个提示的 11 个数据集，在各种规模的 Llama-2 系列（7B、13B、70B）上研究预测事实错误的任务；提出了一种可以预测约束满足和事实错误、并且可以早期发现错误的 self-attention 模式探查方法 SAT Probe；这些方法和发现表明，利用对大型语言模型中事实性的机械理解可以提高可靠性。

Sep, 2023

从人类行为角度探索语言模型

基于人类行为学视角，我们探究了大型语言模型（LLMs）的预测过程和内部机制，通过将 LLMs 的值与眼动测量结果相关联，发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外，随着前馈网络（FFN layers）的升级，记忆和语言知识编码的能力也逐渐提升直至达到巅峰，并转向注重理解能力。自注意力机制的功能分布在多个头部。最后，我们审查了门控机制，发现它们控制信息的流动，有些门控机制促进信息的传递，而其他门控机制则消除信息。

Oct, 2023

基于 Transformer 的语言模型中实际回忆的关键机制解析

本文详细探讨了基于 Transformer 的语言模型在事实回忆任务中所使用的机制，包括零样本场景中通过任务特定的注意力头提取主题实体并传递给后续 MLP 以回忆所需答案，以及少样本场景中相同的机制。此外，我们还观察到在模型的最后一层存在普遍的抑制正确预测的反过度自信机制，并通过利用我们的解释来改善事实回忆性能。

Mar, 2024

使用 Transformer 模型进行语义流畅性的认知建模

使用前沿的深度语言模型进行超参数猜测，探讨这些模型设计的局限性，以追求认知行为的个性化描述符；在预测语义流畅性任务表现时，我们使用了几种方法来预测下一个发言，表明 TLM 可以更好地计算个体差异和人类记忆提取策略，为知识表示的认知建模提供新思路。

Aug, 2022

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

记忆增强生成对抗变换器

本研究探讨了在 Transformers 基础上添加额外的记忆库和注意力层以解决生成语言中的外部数据整合问题，并展示了该方法在处理事实问题和风格适应应用中的实用性。

Feb, 2024