长度通用的单调位置注意力
本文讨论神经网络的外推问题,提出针对自然语言处理中对比训练集更长序列的泛化能力的注意力机制,并在 Lookup Table 任务的变体上验证了此假设,证明此种模型能更好地处理序列问题。
Nov, 2019
研究提出一种可用于在线设置中,使得注意力机制在线性时间内计算的可微分方法,- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题,并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。
Apr, 2017
本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。
May, 2023
本研究提出一种简单的位置相对注意力机制,可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题,并比较了 GMM-based 和加性能量 based 等两种注意力机制,最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。
Oct, 2019
本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力,通过引入相对位置编码和块状因果注意力机制,可以有效提高模型的预测性能。
Dec, 2022
本文提出 Attention with Linear Biases (ALiBi) 方法,拟合模型课以推广到更长的序列,并比多种其他方法在 WikiText-103 基准测试上表现更好。
Aug, 2021
通过实验和注意力分析,我们研究了 transformer 模型在学习算术算法(如加法和乘法)方面的固有能力,并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度,并引入了注意力偏置校准(ABC)阶段,使模型能够自动学习适当的注意力偏置,我们将其与相对位置编码中的机制联系起来。我们证明使用 ABC,transformer 模型能够在某些算术任务上达到前所未有的完美长度广义。
Oct, 2023
提出两种通过温度缩放实现的注意力对齐策略,改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力,无需进行微调。
Nov, 2023
本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示,比绝对位置表示获得了更好的机器翻译结果。同时,将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。
Mar, 2018
本文研究自然语言处理中序列到序列任务的单调注意力特性,并介绍了一种与标准注意力机制兼容的单调损失函数,经过实验表明可以在一定程度上实现单调性,但性能的提升并不是非常显著。
Apr, 2021