球面位置编码对于变压器的应用
该论文介绍了一种针对变压器架构的位置编码方法,使用地理位置信息的输入组件,通过球面坐标定制的位置编码方法。与传统的语言序列不同,这些地理位置的相对顺序不如地理坐标本身重要,为了在嵌入空间中保持真实世界距离和距离的平衡,该方法基于 Rotary Position Embedding 结构进行设计。
Mar, 2024
本篇论文研究了在语言模型中如何整合位置信息,并提出了一种名为 RoPE 的方法,它可以将位置信息编码为旋转矩阵,并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明,RoPE 使 transformer 在处理长文本分类问题时表现出优越的性能。
Apr, 2021
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
使用 3D 旋转位置编码(3D-RPE)在三维球上对象进行编码,具有可控的长期衰减和提高的位置分辨率,可应用于模拟长上下文和长序列任务中,特别在长上下文自然语言理解任务中表现出性能的提升。
Jun, 2024
通过理论洞察和实证分析,我们研究了位置编码在更高维度上不充分表示对注意机制、模型学习相对位置信息的能力和模型的收敛性等关键方面的影响,发现这些挑战不仅存在于绝对位置编码,也可能对旋转位置编码等相对位置编码方法的性能产生负面影响。因此,我们引入了一种新颖的解决方案,使用正交勒让德多项式的位置编码(PoPE)来克服现有方法的一些限制,并通过实验结果证明,PoPE 法可以提高基准 transformer 模型的性能,并显著加快模型的收敛速度。此外,我们还提出了关于位置编码的新理论视角,基于 PoPE 的出色性能。
Apr, 2024
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
Transformer-based methods have made significant progress in time series forecasting, but research on positional encoding remains insufficient. This paper introduces two new positional encodings, Temporal Position Encoding (T-PE) and Variable Positional Encoding (V-PE), and a Transformer-based dual-branch framework named T2B-PE, demonstrating superior robustness and effectiveness in extensive experiments.
Apr, 2024
通过在自注意力网络中采用相对位置编码方案,我们成功地让 Transformer 模型适应了语音数据的分散分布特点,并在 Switchboard 基准测试中获得了最佳识别结果,也在 MuST-C 语音翻译基准测试中获得了最佳出版结果,并且我们的模型能够更好地利用合成数据,并适应语音翻译的变量句子分割质量。
May, 2020
本文介绍了相对位置编码的在图像识别中的研究,提出了基于 2D 图像的新型相对位置编码方法,即图像 RPE。经过实验验证,该方法可以显著提高 DeiT 和 DETR 的准确率,而不需要额外的超参数调节。
Jul, 2021