解释 Transformer 如何利用上下文来建立预测

ACLMay, 2023

解释 Transformer 如何利用上下文来建立预测

Explaining How Transformers Use Context to Build Predictions

Javier Ferrando, Gerard I. Gállego, Ioannis Tsiamas, Marta R. Costa-jussà

TL;DR本文使用 Transformer 的最新可解释性进展提出了分析语言生成模型的过程，并使用对比实例比较了我们的方法与渐变和扰动基线的解释的一致性，结果表明我们的方法具有更好的表现。最后，我们将该方法应用于神经机器翻译模型，并展示了生成人类相似的源 - 目标对齐结果的能力。

Abstract

language generation models produce words based on the previous context. Although existing methods offer input attributions as explanations for a model's prediction, it is still unclear how prior words affect the model's decision throughout the layers. In this work, we leverage recent a

language generation models explainability of the transformer mlps neural machine translation human-like alignments

发现论文，激发创造

通过点亮重要信息更好地解释 Transformers

提出了一种在层间相关传播 (LRP) 方法的基础上通过细化信息流来突出重要信息并消除无关信息，实验结果表明，与八个基准方法相比，在分类和问答数据集上我们的方法始终表现出超过 3% 到 33% 的解释指标的提升，提供了更好的解释性能。

Jan, 2024

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

Transformer 模型中的文本相似度解释

通过利用改进的解释，在语义相似性任务和模型中进行深入分析和语料库级别洞察，并使用分层相关传播（LRP）来验证结果解释的有效性，本研究探索了驱动语义相似性的特征相互作用。

May, 2024

Transformer 语言模型可以使用哪些上下文特征？

通过在 Transformer 语言模型上进行一系列实验，我们发现对于当前 Transformer 语言模型的低困惑度，长上下文至关重要，但上下文的详细句法和命题内容并不重要，且在中长程上下文中，包括重新排列句子中的单词和删除除名词以外的所有单词在内的多种极端破坏性上下文操作仅会移除不到 15％的可用信息。

Jun, 2021

变形金刚的诞生：记忆视角

本研究使用合成机制来考察 transformers 在处理全局信息与上下文信息时的权衡，发现这些模型相对较快地学习了全局信息，但对于上下文信息中的二元组的识别则较慢，同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制，同时研究了数据分布属性的作用。

Jun, 2023

神经语言模型解剖

通过简洁明了的数学框架和清晰的图示，详细解释了神经语言模型的主要类型，包括 BERT 和 GPT2，同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。

Jan, 2024

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

解读 Transformers 中的上下文查找：调查 Attention-MLP 交互

通过研究注意力头与特定 “下一个标记” 神经元在预测特定标记的多层感知机中的相互作用，我们可以揭示激活特定下一个标记神经元的注意机制。具体而言，我们关注在较早层次中不同提示下始终激活相同下一个标记神经元的注意力头。我们的方法结合了神经解释和探测孤立组件，以阐明注意力如何在语境依赖的专门处理中发挥作用。

Feb, 2024

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

利用对比解释解读语言模型

该研究关注对语言模型的对比解释，证明对比解释在验证大型语法现象和改善对相互模拟性上是可量化地更好的，并且可以表征模型在各种语言生成决策中使用的输入令牌。

Feb, 2022