改进转换器使用忠实位置编码
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
提出了一种新的位置信息编码方法,使用神经常微分方法对非循环模型(如 Transformer)进行编码,并证明在翻译和理解任务中,该编码方法与已有编码方法相比具有更好的性能。
Mar, 2020
研究了 transformers 在时间序列数据中应用时所需的位置编码方法,提出了一种新的绝对位置编码方法,称为时间绝对位置编码(tAPE);提出了一种高效的相对位置编码实现方法(eRPE),并将 tAPE/eRPE 与卷积输入编码相结合,提出了一种新的多元时间序列分类(MTSC)模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明,优于最先进的卷积和 transformer-based 模型。
May, 2023
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在 SQuAD1.1 上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
本研究发现,Transformers 在固定上下文长度的任务中表现出快速泛化的特性。但是,它们不能在任意长度序列上泛化,即使是像复制字符串这样的简单任务也不行。本文介绍了一种新的位置编码方案,可以解决长序列位置编码失效的问题,并通过大规模实验,证明该方案可提高分类精度。
May, 2023
本文综述了如何将位置信息整合到 Transformer 模型中,以比较不同方法在重要模型维度上的优劣,以及指出在选择位置编码时应考虑的应用特性,并为未来的研究提供刺激。
Feb, 2021