变压器中的注意力 - 相似度关系 | BriefGPT

Mar, 2023

变压器中的注意力 - 相似度关系

Attention-likelihood relationship in transformers

Valeria Ruscio, Valentino Maiorca, Fabrizio Silvestri

TL;DR我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Abstract

We analyze how large language models (LLMs) represent out-of-context words, investigating their reliance on the given context to capture their semantics. Our likelihood-guided text perturbations reveal a correlat

large language models text perturbations transformer-based language models attention values robustness

发现论文，激发创造

上下文学习与权重移动对 softmax 回归的紧密性

本文针对 Transformer 注意机制进行研究，基于 softmax 回归建模，研究了单个自注意力层诱导数据转换的上限，并通过梯度下降训练 self-attention-only Transformers 来学习基本回归任务，发现梯度下降和 Transformers 所学的模型具有很大的相似性。

Apr, 2023

解读 Transformers 中的上下文查找：调查 Attention-MLP 交互

通过研究注意力头与特定 “下一个标记” 神经元在预测特定标记的多层感知机中的相互作用，我们可以揭示激活特定下一个标记神经元的注意机制。具体而言，我们关注在较早层次中不同提示下始终激活相同下一个标记神经元的注意力头。我们的方法结合了神经解释和探测孤立组件，以阐明注意力如何在语境依赖的专门处理中发挥作用。

Feb, 2024

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

将注意力转向相关性：大型语言模型的不确定性估计

本研究通过研究生成不平等性如何影响不确定性估计，提出了将注意力转移到更相关的组件来处理生成不平等性的方法，通过在各种自由形式的问答任务中进行实验，证明了该方法的优越性。

Jul, 2023

识别语义引导头以理解上下文学习

通过对注意力头的运行进行详细分析，我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系，从而推进了我们对 transformers 中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。

Feb, 2024

地标注意力：随机访问变形金刚的无限上下文长度

本论文提出一种新方法，使用地标标记来代表输入的每个块，并通过训练使注意力选择相关块，从而使我们可以访问完整的上下文并保留随机访问灵活性。该方法与专用数据结构和系统的内存层次结构无缝集成，可以处理任意长度的上下文长度。

May, 2023

AttnLRP：面向 Transformer 的注意力感知分层相关传播

扩展対面层级相关传递方法以处理注意力层可以实现对大型语言模型进行准确且高效的非黑盒推理解释。

Feb, 2024

注意力透镜：一种解释机制注意头信息检索机制的工具

利用学习的注意力头特定转换，Attention Lens 将注意力头的输出转化为词汇标记，揭示了注意力头在语言模型中的高度特殊化角色。

Oct, 2023

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024