长度通用的单调位置注意力

ICMLMay, 2023

Monotonic Location Attention for Length Generalization

Jishnu Ray Chowdhury, Cornelia Caragea

TL;DR本篇研究中，我们探讨了在序列到序列的网络中，利用基于位置的交叉注意力实现长度泛化的不同方法，并显示了插值原始编码和反向编码表示结合相对注意力的简单方法可以实现几乎完美的长度泛化

Abstract

We explore different ways to utilize position-based cross-attention in seq2seq networks to enable length generalization in →

position-based cross-attention seq2seq networks length generalization relative attention algorithmic tasks

发现论文，激发创造

考虑位置注意力用于长序列的外推

本文讨论神经网络的外推问题，提出针对自然语言处理中对比训练集更长序列的泛化能力的注意力机制，并在 Lookup Table 任务的变体上验证了此假设，证明此种模型能更好地处理序列问题。

Nov, 2019

通过强制单调对齐实现在线和线性时间注意力

研究提出一种可用于在线设置中，使得注意力机制在线性时间内计算的可微分方法，- 该方法通过学习单调对齐来解决软注意机制在线性时间复杂度下难以实现的问题，并在句子摘要、机器翻译和在线语音识别领域实现了有竞争力的结果。

Apr, 2017

随机位置编码增强 Transformer 的长度泛化

本研究发现，Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是，它们不能在任意长度序列上泛化，即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案，可以解决长序列位置编码失效的问题，并通过大规模实验，证明该方案可提高分类精度。

May, 2023

基于定位关系的注意力机制，用于强健的长篇语音合成

本研究提出一种简单的位置相对注意力机制，可解决关注式端到端文本转语音系统在越领域文本中出现的文本对齐失败问题，并比较了 GMM-based 和加性能量 based 等两种注意力机制，最后验证 GMM attention 和动态卷积 attention (DCA) 机制对于非领域文本具有很好的泛化能力并能保持语音自然性。

Oct, 2019

可长度推广的 Transformer

本文探讨了 Transformers 中的位置建模以及如何提高其对于长文本的预测能力，通过引入相对位置编码和块状因果注意力机制，可以有效提高模型的预测性能。

Dec, 2022

使用带线性偏置的注意力机制实现输入长度的外推：训练时短、测试时长

本文提出 Attention with Linear Biases (ALiBi) 方法，拟合模型课以推广到更长的序列，并比多种其他方法在 WikiText-103 基准测试上表现更好。

Aug, 2021

从插值到外推：算术 Transformer 的完全长度概括

通过实验和注意力分析，我们研究了 transformer 模型在学习算术算法（如加法和乘法）方面的固有能力，并确定了几个实现最佳长度泛化的关键因素。我们展示了 transformer 模型能够借助有针对性的注意力偏置来推广到长长度，并引入了注意力偏置校准（ABC）阶段，使模型能够自动学习适当的注意力偏置，我们将其与相对位置编码中的机制联系起来。我们证明使用 ABC，transformer 模型能够在某些算术任务上达到前所未有的完美长度广义。

Oct, 2023

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

相对位置表示的自注意力

本研究通过在自我关注机制中引入对序列元素相对位置或距离的表示，比绝对位置表示获得了更好的机器翻译结果。同时，将相对位置表示和绝对位置表示相结合并不能进一步提高翻译质量。

Mar, 2018

偏向于单调性的 Transformer 注意力

本文研究自然语言处理中序列到序列任务的单调注意力特性，并介绍了一种与标准注意力机制兼容的单调损失函数，经过实验表明可以在一定程度上实现单调性，但性能的提升并不是非常显著。

Apr, 2021