变压器激活空间分析中的可解释性：重点调查

Jan, 2023

变压器激活空间分析中的可解释性：重点调查

Interpretability in Activation Space Analysis of Transformers: A Focused Survey

Soniya Vijayakumar

TL;DR该研究论文探讨自然语言处理领域的可解释性方法，重点关注 transformer 中前馈层激活空间（Activation Space），旨在加强该领域的研究。

Abstract

The field of natural language processing has reached breakthroughs with the advent of transformers. They have remained state-of-the-art since then, and there also has been much research in analyzing, interpreting

natural language processing transformers feed-forward layers interpretability activation space analysis

发现论文，激发创造

嵌入空间中的 Transformer 分析

该研究在理论上分析了训练好的 Transformer 模型参数的映射关系与对应的词向量，在嵌入空间中进行模型参数解释，从而实现在模型特定细节抽象化的前提下进行模型参数解释，进一步提出了参数对齐和分类器构建两种应用。

Sep, 2022

旅行之词：Transformer 的几何解释

通过引入新颖的几何视角，本文揭示了 Transformer 操作的内部机制，主要贡献在于说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究，我们的发现揭示了早期层中的清晰查询 - 键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，我们给出了 Transformer 的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

Sep, 2023

分析 Transformer 动力学作为嵌入空间中的移动

Transformer language models are explored to understand their mechanics, revealing that intelligent behaviors are mapped as trajectories in an embedding space, with vector composition and organization playing a key role in the model's abilities, including knowledge acquisition and intelligence. A semantic space theory is formalized and tested, providing evidence for the representation of semantic concepts in embedding vectors.

Aug, 2023

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释，我们可以将 GPT 的前向传递可视化为交互式流图，从而发现模型输出结果的原因和 LM 组件在模型中的作用。

May, 2023

深度学习综述：从激活函数到 Transformer

本文提供了最近在深度学习领域中，新兴架构、优化技术、注意力、自监督学习等多个方面的全面综述。通过对这些领域中最重要和最新的研究工作的全面概述，希望帮助深度学习领域的研究人员在各领域间形成新的联系。

Feb, 2023

在类别嵌入空间中分析视觉 Transformer 用于图像分类

利用我们提出的方法，可以反向工程训练用于解决图像分类任务的 Vision Transformers，并投影到学习的类别嵌入空间以揭示网络建立预测的分类表示的过程。该方法还展示了图像令牌如何根据注意力机制和上下文信息发展类别特定的表示，以及自注意力和 MLP 层在此分类组合中的差异性贡献。我们的研究结果表明，我们提出的框架在机械解释性和可解释性研究中具有强大的功能。

Oct, 2023

Transformer 如何学习主题结构：迈向机制理解

本文研究 transformers 学习的机制和语义结构，揭示了 embedding 层和 self-attention 层如何编码语义结构，具体表现为同主题单词之间的嵌入内积和自注意力相对较高。

Mar, 2023