通过字典学习实现 Transformer 可视化：上下文嵌入作为 Transformer 因子的线性叠加

ACLMar, 2021

通过字典学习实现 Transformer 可视化：上下文嵌入作为 Transformer 因子的线性叠加

Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors

PDF

Zeyu Yun, Yubei Chen, Bruno A Olshausen, Yann LeCun

TL;DR本文提出使用字典学习作为线性叠加的 Transformer 成分的可视化工具，以展示 Transformer 成分所捕捉到的分层语义结构，包括词级歧义消歧，句级模式形成和远距依赖。这些模式中有些证实了常规的语言学知识，而有些则相对出乎意料，可能提供新的见解。我们希望这个可视化工具能够带来更深入的知识和更好地理解 Transformer 网络的工作原理。

Abstract

transformer networks have revolutionized nlp representation learning since they were introduced. Though a great effort has been made to explain the representation in transformers, it is widely recognized that our

transformer networks nlp representation learning visualization tool dictionary learning semantic structures

发现论文，激发创造

生成式 Transformer 模型的视觉分析

我们提出了一种新颖的视觉分析框架，用于支持基于 transformer 的生成网络的分析，通过交互式可视化提供直观的模型概览，并通过三个详细案例研究展示了其可行性和实用性。

Nov, 2023

在类别嵌入空间中分析视觉 Transformer 用于图像分类

利用我们提出的方法，可以反向工程训练用于解决图像分类任务的 Vision Transformers，并投影到学习的类别嵌入空间以揭示网络建立预测的分类表示的过程。该方法还展示了图像令牌如何根据注意力机制和上下文信息发展类别特定的表示，以及自注意力和 MLP 层在此分类组合中的差异性贡献。我们的研究结果表明，我们提出的框架在机械解释性和可解释性研究中具有强大的功能。

Oct, 2023

概率变换器：一种用于上下文词表示的概率依赖模型

我们提出了一种新的上下文词表示模型，由纯句法和概率角度设计。我们的模型类似于 transformers，能够竞争性地在小到中等规模的数据集上执行任务，希望能够弥补传统句法和概率方法与先进神经方法之间的差距，并激发未来更多基于语言学原则的神经方法的启发。

Nov, 2023

通过线性结构探测研究变压器句子嵌入的语义子空间

以语义结构探测为方法，对来自不同家族（仅编码器、仅解码器、编码解码器）和大小的语言模型进行实验，评估其在语义文本相似度和自然语言推理方面的性能和层次动态，发现模型家族在性能和层次动态上存在显著差异，但结果大部分与模型大小无关。

Oct, 2023

上下文化词表示的低维线性几何

本文研究了 ELMO 和 BERT 中的单词表示的线性几何，发现低维子空间编码了各种语言特征，包括结构化依赖关系，子空间之间存在着层次关系，可以用于对 BERT 的输出分布进行细粒度的操作。

May, 2021

旅行之词：Transformer 的几何解释

通过引入新颖的几何视角，本文揭示了 Transformer 操作的内部机制，主要贡献在于说明层归一化将潜在特征限制在一个超球面上，从而使得注意力能够塑造单词在这个表面上的语义表示。通过对经过预训练的 124M 参数的 GPT-2 模型进行探究，我们的发现揭示了早期层中的清晰查询 - 键注意力模式，并在更深层次上进一步构建了关于注意力头部的特定主题性的先前观察。利用这些几何洞察，我们给出了 Transformer 的直观理解，将其描述为沿着超球面的词粒子的轨迹的建模过程。

Sep, 2023

基于 Transformer 的方法：从非结构化文本到因果知识图谱

本文介绍了基于 transformer 的 NLP 架构，该架构可以联合提取包括语言描述、定性因果关系、约束限定词、词义在内的知识图谱，以及说明其在真实世界中的准确性和实用性。

Feb, 2022

情境化的词义感知：从注意力到组合性

使用语义组合性建模的透明、可解释和语言学动机策略，模拟词的上下文意义编码，并且与复杂神经结构下的黑盒模型相比，显示其与语言学动机模型在给定语义任务中的竞争力。

Dec, 2023

关于为何费心于几何？论变压器嵌入式的线性分解的相关性

通过两种嵌入分解方法，研究机器翻译解码器的表示，结果表明分解导出的指标与模型性能有效相关，但不同运行之间的变化暗示了对这个问题更微妙的看法，测量结果的高变异性表明几何更多地反映模型特定的特征而不是句子特定的计算，并且类似的训练条件不能保证相似的向量空间。

Oct, 2023

变压器辅助的语义通信

通过使用 transformer 结构进行特征提取，以实现图像压缩和紧凑表示，从而优化语义通信的质量和带宽利用效率。

May, 2024