本文研究了自注意力在建模形式语言方面的计算能力,发现其在处理分层结构时存在强烈的理论限制,但在自然语言处理方面表现卓越。
Jun, 2019
本文研究序列到序列模型中注意力机制,通过监督学习的方法对注意力权重和输出对齐进行训练,实验结果表明,对齐学习对模型性能的提升至关重要。
Apr, 2022
自我注意机制在现代机器学习中盛行,通过调节注意定位的程度,它有能力自适应地从输入序列中选择标记,被许多研究人员认为是强大模型性能的基础之一,但也使学习动态的基本机制复杂化。近年来,主要有两个论点将注意定位与模型性能联系起来,即秩坍缩和熵崩溃,它们似乎互相矛盾,但通过特征化查询 - 键参数矩阵的特征谱,我们揭示出小特征谱方差会防止秩和熵的崩溃,从而提高模型的表达能力和可训练性。
Feb, 2024
本篇论文探讨如何应用自注意力机制解决计算复杂度、模型稳定性和位置信息等问题,相比于 LSTM 模型,该模型不仅运算时间更快,而且更具可解释性。
Mar, 2018
本文通过对自我注意模块归纳偏差的理论分析,发现有界 Transformer 网络能够创建稀疏变量,从而用单个注意力头表示输入序列的稀疏函数,样本复杂度仅以对数尺度增长;通过合成实验来支持我们的分析,探究了使用 Transformer 学习稀疏布尔函数的样本复杂度。
Oct, 2021
本文证明了 Transformer 模型具有连续排列等变序列到序列函数的通用逼近性,并且使用位置编码绕过了排列等变性的限制,展示了 Transformer 可以普遍逼近任意的连续序列到序列函数。该文章的基础是对 Transformer 中自注意力和前馈层分别在模型中的不同作用,在分析的基础上,考虑了其他简单的自注意力层的替代方法并进行了实验性评估。
Dec, 2019
自注意力机制是 transformers 在序列建模任务中取得卓越成功的关键,本研究提出了一种基于支持向量回归问题的自注意力构建方法,推导出常用的注意力层,并提出了两种新型注意力机制:1) 批正则注意力,2) 缩放头注意力,通过实证研究证明这两种注意力机制在提高模型准确性和效率方面的优势。
Jun, 2024
我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制,用于估计给定输入符号(标记)序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比,该解释仍然有效。根据此解释,我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲,现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务(自然语言处理的情感分类和推荐)中的 Transformer 结果提供因果解释来演示这种方法。
Oct, 2023
研究表明 Seq2Seq 模型在一些特殊结构外的数据上表现可能不理想,而本文探讨了在一个简单的、明确定义的结构转换任务中,该模型实现泛化的能力如何取决于其随机种子的选择且其泛化结构的能力高度敏感。
May, 2018
通过比较两个任务特定的阅读数据集,研究表明,大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质,而任务特定的微调不增加与人类阅读的相关性,并且通过输入减少实验给出了互补信息,表明低熵的注意向量更为可靠。