注意力透镜：一种解释机制注意头信息检索机制的工具

Oct, 2023

注意力透镜：一种解释机制注意头信息检索机制的工具

Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism

Mansi Sakarvadia, Arham Khan, Aswathy Ajith, Daniel Grzenda, Nathaniel Hudson...

TL;DR利用学习的注意力头特定转换，Attention Lens 将注意力头的输出转化为词汇标记，揭示了注意力头在语言模型中的高度特殊化角色。

Abstract

transformer-based large language models (LLMs) are the state-of-the-art for natural language tasks. Recent work has attempted to decode, by reverse engineering the role of →

transformer-based large language models reverse engineering linear layers attention heads language models

发现论文，激发创造

朝着能够看见的语言模型：通过自然语言镜头看计算机视觉

LENS 是一种模块化的方法，针对计算机视觉问题，利用大型语言模型进行推理，可以应用于零 / 少样本对象识别，以及视觉和语言问题。

Jun, 2023

从人类行为角度探索语言模型

基于人类行为学视角，我们探究了大型语言模型（LLMs）的预测过程和内部机制，通过将 LLMs 的值与眼动测量结果相关联，发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外，随着前馈网络（FFN layers）的升级，记忆和语言知识编码的能力也逐渐提升直至达到巅峰，并转向注重理解能力。自注意力机制的功能分布在多个头部。最后，我们审查了门控机制，发现它们控制信息的流动，有些门控机制促进信息的传递，而其他门控机制则消除信息。

Oct, 2023

变压器中的注意力 - 相似度关系

我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Mar, 2023

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

基于浅层未训练多头注意力网络的类脑语言处理

通过研究大型语言模型，该论文揭示了语言模型与人类大脑的相似性，重点分析了架构组件中的分词策略和多头注意力以及需求确定性的关键因素，最终提出了一种高度与人类大脑和行为对齐的模型。

Jun, 2024

识别语义引导头以理解上下文学习

通过对注意力头的运行进行详细分析，我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系，从而推进了我们对 transformers 中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。

Feb, 2024

DecoderLens: 编码解码 Transformer 的分层解释

近年来，提出了许多可解释性方法，以帮助解释 Transformer 模型的内部状态，在不同层次的精度和复杂性上。在此，为了分析编码器 - 解码器 Transformer，我们提出了一种简单的新方法：DecoderLens。受到仅解码器的 LogitLens 的启发，该方法涉及允许解码器跨层交叉注意到中间编码器层的表示，而不是使用正常的编码器输出。因此，该方法将以前不可解释的向量表示映射到人类可解释的单词或符号的序列。我们报告了 DecoderLens 应用于在问答、逻辑推理、语音识别和机器翻译上进行训练的模型的结果。DecoderLens 揭示了在低层或中间层解决的几个特定子任务，为这个重要类别的模型内部的信息流提供了新的视角。

Oct, 2023

高效经济的大型语言模型推理与注意力卸载

通过引入关注点卸载的概念，将昂贵的计算优化加速器与便宜的内存优化设备相结合，以提高大型语言模型的效率和成本效益。我们开发了 Lamina 推理系统，实验证明，相较于同质解决方案，Lamina 可以提供每美元 1.48 倍至 12.1 倍的更高预计吞吐量。

May, 2024

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

AttnLRP：面向 Transformer 的注意力感知分层相关传播

扩展対面层级相关传递方法以处理注意力层可以实现对大型语言模型进行准确且高效的非黑盒推理解释。

Feb, 2024