通过解耦位置和上下文揭示 Transformer 中的隐藏几何结构

Oct, 2023

通过解耦位置和上下文揭示 Transformer 中的隐藏几何结构

Uncovering hidden geometry in Transformers via disentangling position and context

Jiajun Song, Yiqiao Zhong

TL;DR通过将训练后的 Transformer 的隐藏状态或嵌入分解成可解释的组件，本文介绍了一种简单而有信息量的方法，揭示了输入格式在上下文学习和算术任务中的结构洞察。

Abstract

transformers are widely used to extract complex semantic meanings from input tokens, yet they usually operate as black-box models. In this paper, we present a simple yet informative decomposition of →

transformers hidden states interpretable components decomposition structural insights

发现论文，激发创造

关于为何费心于几何？论变压器嵌入式的线性分解的相关性

通过两种嵌入分解方法，研究机器翻译解码器的表示，结果表明分解导出的指标与模型性能有效相关，但不同运行之间的变化暗示了对这个问题更微妙的看法，测量结果的高变异性表明几何更多地反映模型特定的特征而不是句子特定的计算，并且类似的训练条件不能保证相似的向量空间。

Oct, 2023

大型 Transformer 模型的隐藏表示的几何学

研究表明，transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化，从而呈现出数据流形在隐藏层中的几何和统计特性，而数据流形的语义结构在第一阶段触发。基于这些观察结果，建议使用内在维度作为无监督代理，以确定下游学习任务更合适的层次。

Feb, 2023

用卷积上下文来进行 ASR 的变压器

本文提出了用卷积学习输入表示替换变形器的正弦位置嵌入，并阐述其在提供长程关系方面的优势和优化特点，最终实现了在无额外语言模型文本下，librispeech 测试中 4.7％和 12.9％的字错率。

Apr, 2019

Transformer 中的可识别性

研究 Transformer 模型中的自注意力和语境嵌入等核心组件，提出了有效关注作为解释注意力的补充工具，展示了输入标记在模型中保持其身份，并发现身份信息主要编码在嵌入的角度中，并且随着深度的增加而逐渐降低，同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合，最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。

Aug, 2019

NLP Transformer 中的双螺旋结构

本研究提出了通过分析 NLP Transformer 中的不同信息类型的框架，并通过 Linear-and-Add 方法优化位置信息嵌入，发现位置信息具有深度分离特征，进而证明其对于 encoder 处的词性聚类和 decoder 处的下一个 token 的词性聚类具有启发意义。

Jun, 2023

分析 Transformer 动力学作为嵌入空间中的移动

Transformer language models are explored to understand their mechanics, revealing that intelligent behaviors are mapped as trajectories in an embedding space, with vector composition and organization playing a key role in the model's abilities, including knowledge acquisition and intelligence. A semantic space theory is formalized and tested, providing evidence for the representation of semantic concepts in embedding vectors.

Aug, 2023

情境化的词义感知：从注意力到组合性

使用语义组合性建模的透明、可解释和语言学动机策略，模拟词的上下文意义编码，并且与复杂神经结构下的黑盒模型相比，显示其与语言学动机模型在给定语义任务中的竞争力。

Dec, 2023

通过分解位置向量探索大型语言模型的上下文窗口

通过分析位置向量对注意力的形成和影响，我们设计了两种无需训练的上下文窗口扩展方法，即位置向量替换和注意力窗口扩展。实验结果表明，我们的方法可以有效地扩展上下文窗口的长度。

May, 2024

旅行之词：Transformer 的几何解释

通过引入新颖的几何视角，本文揭示了 Transformer 操作的内部机制，主要贡献在于说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究，我们的发现揭示了早期层中的清晰查询 - 键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，我们给出了 Transformer 的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

Sep, 2023

上下文化词表示的低维线性几何

本文研究了 ELMO 和 BERT 中的单词表示的线性几何，发现低维子空间编码了各种语言特征，包括结构化依赖关系，子空间之间存在着层次关系，可以用于对 BERT 的输出分布进行细粒度的操作。

May, 2021