球面位置编码对于变压器的应用
提出了一种新的位置信息编码方法,使用神经常微分方法对非循环模型(如Transformer)进行编码,并证明在翻译和理解任务中,该编码方法与已有编码方法相比具有更好的性能。
Mar, 2020
本文提出基于自我关注机制的绝对位置嵌入和相对位置嵌入方法,通过增加查询、键和相对位置嵌入之间的交互,进一步优化了位置信息的利用。其最有前途的一种方法是将绝对位置嵌入泛化,相比之前的位置嵌入方法,在SQuAD1.1上有更好的表现。本文还通过实验证明了相对位置嵌入方法具有合理的泛化性和鲁棒性。最后,还展示了这种新方法可以用于在小的计算预算下提高大型模型的准确性。
Sep, 2020
本文综述了如何将位置信息整合到Transformer模型中,以比较不同方法在重要模型维度上的优劣,以及指出在选择位置编码时应考虑的应用特性,并为未来的研究提供刺激。
Feb, 2021
本文介绍了一种新的机制——Decoupled Positional Attention,将位置和段信息编码为Transformer模型,提高了训练和推理效率,在GLUE、XTREME和WMT基准测试中实现了竞争性表现,并进一步将该方法推广到远程的transformers,显示了性能提升。
Apr, 2021
本篇论文研究了在语言模型中如何整合位置信息,并提出了一种名为RoPE的方法,它可以将位置信息编码为旋转矩阵,并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明,RoPE使transformer在处理长文本分类问题时表现出优越的性能。
Apr, 2021
本论文通过随机平移绝对位置来构建shift invariance的position representation SHAPE,其计算效率和性能与其他方法相当且更为简单。
Sep, 2021
研究了相对位置嵌入在语言模型上的应用,提出了基于对齐假设的自注意力机制,在训练过程中对齐输入,在测试过程中保证了相对位置嵌入的性质。提出的Sandwich positional embedding将比训练序列更长的信息融入模型之中,且由于隐式窗口化的自注意力机制,其可实现高效的推断。
Dec, 2022
本文研究了基于解码器的Transformer模型在用不同的位置编码方式时对长度泛化的影响,发现在一系列的推理和数学任务中,NoPE的表现比其它方法更为优秀,而且无需额外计算。理论上,NoPE能够代表绝对和相对位置嵌入,但在使用SGD训练时,它主要呈现T5相对位置嵌入的注意力模式。同时,scratchpad并不总是有助于解决长度泛化问题,其格式对模型的性能有很大的影响。总之,本文的工作表明解码器-only的Transformer不一定需要显式的位置嵌入以在更长的序列上泛化良好。
May, 2023
我们介绍了一种新颖的位置编码策略,用于Transformer风格模型,解决了现有方法的不足之处。我们的框架提供了一种灵活的映射,从一个领域的代数规范到正交操作符的解释。该设计保留了源域的代数特性,确保模型满足所需的结构属性。我们的方案可以适应各种结构,包括序列、网格和树形结构,以及它们的组合。我们进行了一系列实验证明我们方法的实际适用性。结果表明,在没有超参数优化或任何“任务搜索”的情况下,性能可以达到或超过当前的最新水平。代码将在github.com/konstantinosKokos/UnitaryPE上提供。
Dec, 2023
该论文介绍了一种针对变压器架构的位置编码方法,使用地理位置信息的输入组件,通过球面坐标定制的位置编码方法。与传统的语言序列不同,这些地理位置的相对顺序不如地理坐标本身重要,为了在嵌入空间中保持真实世界距离和距离的平衡,该方法基于Rotary Position Embedding结构进行设计。
Mar, 2024