RoFormer: 带旋转位置嵌入的增强 Transformer
通过在变压器架构中引入地理标记信息(geotokens),本文基于 RoPE 架构提出了一种适用于球坐标系的位置编码机制,以达到在嵌入空间中保持地理位置与物理距离之间比例关系的目的。
Oct, 2023
使用 RoPE(Rotary Position Embedding)在 Vision Transformer(ViT)中的实际实现对 2D 视觉数据进行了综合分析,结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率,从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南,承诺在最小的额外计算开销下提高主干性能。
Mar, 2024
该论文介绍了一种针对变压器架构的位置编码方法,使用地理位置信息的输入组件,通过球面坐标定制的位置编码方法。与传统的语言序列不同,这些地理位置的相对顺序不如地理坐标本身重要,为了在嵌入空间中保持真实世界距离和距离的平衡,该方法基于 Rotary Position Embedding 结构进行设计。
Mar, 2024
引入了 Lie 组相对位置编码(LieRE),在 2D 和 3D 图像分类任务中取得了显著性能提升(高达 6%),训练效率(降低了 3.5 倍),数据效率(提升了 30%),相比于 Rotary Position Embeddings(RoPE)以及其他基线模型 RoFormer、DeiT III、RoPE-Mixed 和 Vision-Llama。
Jun, 2024
通过理论洞察和实证分析,我们研究了位置编码在更高维度上不充分表示对注意机制、模型学习相对位置信息的能力和模型的收敛性等关键方面的影响,发现这些挑战不仅存在于绝对位置编码,也可能对旋转位置编码等相对位置编码方法的性能产生负面影响。因此,我们引入了一种新颖的解决方案,使用正交勒让德多项式的位置编码(PoPE)来克服现有方法的一些限制,并通过实验结果证明,PoPE 法可以提高基准 transformer 模型的性能,并显著加快模型的收敛速度。此外,我们还提出了关于位置编码的新理论视角,基于 PoPE 的出色性能。
Apr, 2024
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
应对在大规模语言模型中的训练短测试长场景下,使用旋转位置嵌入(RoPE)时面临的挑战,本论文引入了共振 RoPE,一种旨在通过对 OOD 位置的 RoPE 特征插值进行精化,显著提高模型性能而无需额外在线计算成本的新方法。另外,我们提出了 PosGen,这是一个专门为 TSTL 场景中的细粒度行为分析设计的合成基准,旨在从生成长上下文的令牌的不断增加难度与识别新令牌位置的挑战中分离出来。我们在合成任务上的实验证明,在应用了共振 RoPE 之后,Transformer 在识别 OOD 位置方面表现更好、更稳健。我们的大量 LLM 实验也表明,在上游语言建模任务和各种下游长文本应用中,应用共振 RoPE 到当前最先进的 RoPE 缩放方法 YaRN 后,性能更优秀。
Feb, 2024
本文针对基于相对位置编码的 Transformer 模型展开数学分析,证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络,但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验,证明了其在参数效率和性能上均超过了其他模型。
May, 2022
本文介绍了相对位置编码的在图像识别中的研究,提出了基于 2D 图像的新型相对位置编码方法,即图像 RPE。经过实验验证,该方法可以显著提高 DeiT 和 DETR 的准确率,而不需要额外的超参数调节。
Jul, 2021