为什么自注意力在序列到序列问题中是自然的？来自对称性的视角

Oct, 2022

为什么自注意力在序列到序列问题中是自然的？来自对称性的视角

Why self-attention is Natural for Sequence-to-Sequence Problems? A Perspective from Symmetries

Chao Ma, Lexing Ying

TL;DR本文研究了 seq2seq 函数的正交等变性和嵌入空间中的自注意力结构对于序列到序列问题的作用，并发现其自注意力结构是表达目标函数的合适结构。

Abstract

In this paper, we show that structures similar to self-attention are natural to learn many sequence-to-sequence problems from the perspective of symmetry. Inspired by language processing applications, we study th

self-attention sequence-to-sequence orthogonal equivariance embedding space finite information principle

发现论文，激发创造

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

语音识别序列到序列模型中的监督式注意力

本文研究序列到序列模型中注意力机制，通过监督学习的方法对注意力权重和输出对齐进行训练，实验结果表明，对齐学习对模型性能的提升至关重要。

Apr, 2022

自注意力网络当 QK 特征向量集中时的局部化

自我注意机制在现代机器学习中盛行，通过调节注意定位的程度，它有能力自适应地从输入序列中选择标记，被许多研究人员认为是强大模型性能的基础之一，但也使学习动态的基本机制复杂化。近年来，主要有两个论点将注意定位与模型性能联系起来，即秩坍缩和熵崩溃，它们似乎互相矛盾，但通过特征化查询 - 键参数矩阵的特征谱，我们揭示出小特征谱方差会防止秩和熵的崩溃，从而提高模型的表达能力和可训练性。

Feb, 2024

自注意力声学模型

本篇论文探讨如何应用自注意力机制解决计算复杂度、模型稳定性和位置信息等问题，相比于 LSTM 模型，该模型不仅运算时间更快，而且更具可解释性。

Mar, 2018

自注意机制中的感性偏见和变量创建

本文通过对自我注意模块归纳偏差的理论分析，发现有界 Transformer 网络能够创建稀疏变量，从而用单个注意力头表示输入序列的稀疏函数，样本复杂度仅以对数尺度增长；通过合成实验来支持我们的分析，探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。

Oct, 2021

Transformer 是否是序列到序列函数的通用逼近器？

本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性，并且使用位置编码绕过了排列等变性的限制，展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自注意力和前馈层分别在模型中的不同作用，在分析的基础上，考虑了其他简单的自注意力层的替代方法并进行了实验性评估。

Dec, 2019

Transformer 和神经网络的原始 - 对偶框架

自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键，本研究提出了一种基于支持向量回归问题的自注意力构建方法，推导出常用的注意力层，并提出了两种新型注意力机制：1) 批正则注意力，2) 缩放头注意力，通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。

Jun, 2024

预训练 Transformer 中自注意力的因果解释

我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制，用于估计给定输入符号（标记）序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比，该解释仍然有效。根据此解释，我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲，现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务（自然语言处理的情感分类和推荐）中的 Transformer 结果提供因果解释来演示这种方法。

Oct, 2023

Seq2Seq-Attention 模型中语言泛化和失败之间的微妙平衡

研究表明 Seq2Seq 模型在一些特殊结构外的数据上表现可能不理想，而本文探讨了在一个简单的、明确定义的结构转换任务中，该模型实现泛化的能力如何取决于其随机种子的选择且其泛化结构的能力高度敏感。

May, 2018

Transformer 模型是否显示出与任务特定的人类凝视类似的注意力模式？

通过比较两个任务特定的阅读数据集，研究表明，大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质，而任务特定的微调不增加与人类阅读的相关性，并且通过输入减少实验给出了互补信息，表明低熵的注意向量更为可靠。

Apr, 2022