嵌入空间中的 Transformer 分析

Sep, 2022

Analyzing Transformers in Embedding Space

Guy Dar, Mor Geva, Ankit Gupta, Jonathan Berant

TL;DR该研究在理论上分析了训练好的 Transformer 模型参数的映射关系与对应的词向量，在嵌入空间中进行模型参数解释，从而实现在模型特定细节抽象化的前提下进行模型参数解释，进一步提出了参数对齐和分类器构建两种应用。

Abstract

Understanding transformer-based models has attracted significant attention, as they lie at the heart of recent technological advances across machine learning. While most interpretability methods rely on running m

transformer-based models interpretability methods embedding space fine-tuned models parameter alignment

发现论文，激发创造

分析 Transformer 动力学作为嵌入空间中的移动

Transformer language models are explored to understand their mechanics, revealing that intelligent behaviors are mapped as trajectories in an embedding space, with vector composition and organization playing a key role in the model's abilities, including knowledge acquisition and intelligence. A semantic space theory is formalized and tested, providing evidence for the representation of semantic concepts in embedding vectors.

Aug, 2023

变压器激活空间分析中的可解释性：重点调查

该研究论文探讨自然语言处理领域的可解释性方法，重点关注 transformer 中前馈层激活空间（Activation Space），旨在加强该领域的研究。

Jan, 2023

在类别嵌入空间中分析视觉 Transformer 用于图像分类

利用我们提出的方法，可以反向工程训练用于解决图像分类任务的 Vision Transformers，并投影到学习的类别嵌入空间以揭示网络建立预测的分类表示的过程。该方法还展示了图像令牌如何根据注意力机制和上下文信息发展类别特定的表示，以及自注意力和 MLP 层在此分类组合中的差异性贡献。我们的研究结果表明，我们提出的框架在机械解释性和可解释性研究中具有强大的功能。

Oct, 2023

如何解剖木偶：Transformer 嵌入空间的结构

本文详细阐述基于 Transformer 架构的预训练嵌入如何用向量因子的总和来重新构造，展示它们在不同应用中成分的影响如何不同，以及微调对于整个嵌入空间的效果，从而与以前的广泛研究建立联系.

Jun, 2022

旅行之词：Transformer 的几何解释

通过引入新颖的几何视角，本文揭示了 Transformer 操作的内部机制，主要贡献在于说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究，我们的发现揭示了早期层中的清晰查询 - 键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，我们给出了 Transformer 的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

Sep, 2023

通过概念化解释嵌入空间

本文提出了一种将任何嵌入空间转换成易理解的概念空间的方法，并展示了该方法在语义表示方面的实用价值，如发现潜藏的偏见和比较不同模型间语义的差异。

Aug, 2022

视觉转换器嵌入空间的引人注目的等效结构

基于视觉转换器作为例子，通过分析和系统实验，我们展示了表示空间由大型分段线性子空间和局部正常空间组成，存在着不同输入具有相同表示和在视觉上难以区分的不同表示的输入。这些经验结果进一步通过基础模型的局部方向估计来验证。因此，得到的表示会改变下游模型的结果，并且这样的模型容易过度泛化且具有有限的迁移能力。

Jan, 2024

基于有界 Dyck 文法的研究案例：变压器使用短视方法不可解释

研究关注于解释性方法，通过检查模型的不同方面（例如权重矩阵或注意力模式）来理解训练模型（例如 Transformer）实现的算法。通过理论结果和对合成数据的仔细控制实验的组合，我们对专注于模型的个别部分而不是整个网络的方法提出了批判性观点。我们使用学习（有界）Dyck 语言的简单合成设置来理论上展示了解决此任务的模型集合满足的结构特征（基于形式语言的思想，即泵引理）并证明了最佳解集合具有丰富的定性特点；特定情况下，单层的注意力模式可以 “几乎随机化”，同时保持网络的功能性。通过大量实验证明了这些结论并不仅仅是理论产物：即使在严格约束模型架构的情况下，经过标准训练也可以得到截然不同的解决方案。因此，基于检查 Transformer 中的个别头部或权重矩阵的解释性声明可能是误导性的。

Dec, 2023

解读 Transformer 的注意力动态记忆与可视化 GPT 的语义信息流

通过对 transformer-based 语言模型的 attention 头和 memory values 进行解释，我们可以将 GPT 的前向传递可视化为交互式流图，从而发现模型输出结果的原因和 LM 组件在模型中的作用。

May, 2023

视觉 - 语言变换模型的零射击和系统评估之间的有趣差异

基于一种新的梯度下降优化方法，本文探索了一个常用的视觉 - 语言模型的嵌入空间，通过 Imagenette 数据集的实验结果表明，尽管该模型达到了超过 99% 的零样本分类性能，但在系统性评估中却完全失败，使用线性近似说明了这些显著差异，并提出了一种可检测修改图像的强大方法。

Feb, 2024