Transformer 模型中的注意力的多尺度可视化

ACLJun, 2019

Transformer 模型中的注意力的多尺度可视化

A Multiscale Visualization of Attention in the Transformer Model

Jesse Vig

TL;DR通过使用注意力机制，Transformer 模型不仅在性能上有所提升，同时还可通过可视化工具展示模型如何赋权于不同的输入元素，从而实现模型的解释和解读，本文提出了一种开源的基于多尺度可视化注意力机制的工具，并在 BERT 和 OpenAI GPT-2 上进行了演示，包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。

Abstract

The transformer is a sequence model that forgoes traditional recurrent architectures in favor of a fully attention-based approach. Besides improving performance, an advantage of using attention is that it can als

transformer attention-based approach open-source tool visualization model interpretation

发现论文，激发创造

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

AttentionViz: Transformer 注意力的全局视图

本文介绍了一种新的可视化技术，旨在帮助研究人员理解转换器中的自我注意机制，并演示了基于 query-key 嵌入的交互式可视化工具 AttentionViz，以改进模型的理解和提供关于查询 - 键交互的新见解。

May, 2023

文本分类的多尺度自注意力

该研究通过在自我注意模块中引入先前知识 - 多尺度结构，提出了一种 Multi-Scale Transformer，其使用多尺度多头自我注意来捕捉来自不同尺度的特征，通过对 21 个数据集进行的实验结果表明，相对于标准 Transformer，在小型和中等型数据集上，该多尺度变压器始终具有显着性能优势。

Dec, 2019

多头注意力的优化和泛化

使用多头自注意力机制，经过一定的初始条件和训练，可以优化和推广 Transformer 模型的核心机制，获得收敛和泛化保证。

Oct, 2023

多尺度变形器模型的序列生成学习

本文提出了一种基于不同语言单元（包括子词、单词和短语）之间的关系建立多尺度 Transformer 模型 ——Universal MultiScale Transformer（UMST），实验证明它在几个测试集上都可比存在的流行基准模型获得更好的性能表现，且不影响效率。

Jun, 2022

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017

提高注意力的必要性

我们引入了三种新的注意力机制，比标准的多头注意力在效率和学习能力方面表现更好，从而提高了 Transformer 模型的性能和广泛部署能力。我们的第一个贡献是优化的注意力，它在头部数量、参数数量和矩阵乘法数量上与标准注意力相近，但参数数量少了 3/4，每个头部少了一次矩阵乘法。接下来，我们介绍了高效的注意力，它在参数数量上只有标准注意力的一半，每个头部少了两次矩阵乘法，并且速度是标准注意力的两倍。最后，我们介绍了超级注意力，在视觉和自然语言处理任务中显著超过标准注意力，同时具有更少的参数和矩阵乘法。除了提供严谨的数学比较，我们还在 MNIST、CIFAR100、IMDB 电影评论和 Amazon 评论数据集上评估了所提出的注意力机制。

Mar, 2024

多分支注意力 Transformer

本研究提出了一种名为多分支注意力 Transformer（MAT）的变体，通过平均多个分支的注意力层，并使用两种训练技术 —— 随机丢弃分支和相似初始化，对机器翻译、代码生成和自然语言理解等任务进行了实验，并取得了显著改善。

Jun, 2020

仅关注注意力的 Transformer 模型及使用注意力头实现的 MLP

证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现，只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分（线性变换和激活函数），并且可以在其权重矩阵中编码任意的掩码模式，误差可以任意小。

Sep, 2023