视觉 Transformer 的旋转位置嵌入

Mar, 2024

Rotary Position Embedding for Vision Transformer

Byeongho Heo, Song Park, Dongyoon Han, Sangdoo Yun

TL;DR使用 RoPE（Rotary Position Embedding）在 Vision Transformer（ViT）中的实际实现对 2D 视觉数据进行了综合分析，结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率，从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南，承诺在最小的额外计算开销下提高主干性能。

Abstract

rotary position embedding (RoPE) performs remarkably on language models, especially for length extrapolation of transformers. However, the

rotary position embedding language models transformers computer vision domains vision transformer

发现论文，激发创造

RoFormer: 带旋转位置嵌入的增强 Transformer

本篇论文研究了在语言模型中如何整合位置信息，并提出了一种名为 RoPE 的方法，它可以将位置信息编码为旋转矩阵，并同时将显式的相对位置依赖性结合到自注意力公式中。实验结果表明，RoPE 使 transformer 在处理长文本分类问题时表现出优越的性能。

Apr, 2021

重新思考和改进相对位置编码在视觉变换器中的应用

本文介绍了相对位置编码的在图像识别中的研究，提出了基于 2D 图像的新型相对位置编码方法，即图像 RPE。经过实验验证，该方法可以显著提高 DeiT 和 DETR 的准确率，而不需要额外的超参数调节。

Jul, 2021

LieRE: 广义旋转位置编码

引入了 Lie 组相对位置编码（LieRE），在 2D 和 3D 图像分类任务中取得了显著性能提升（高达 6%），训练效率（降低了 3.5 倍），数据效率（提升了 30%），相比于 Rotary Position Embeddings（RoPE）以及其他基线模型 RoFormer、DeiT III、RoPE-Mixed 和 Vision-Llama。

Jun, 2024

共振 RoPE: 改善大型语言模型的上下文长度通用性

应对在大规模语言模型中的训练短测试长场景下，使用旋转位置嵌入（RoPE）时面临的挑战，本论文引入了共振 RoPE，一种旨在通过对 OOD 位置的 RoPE 特征插值进行精化，显著提高模型性能而无需额外在线计算成本的新方法。另外，我们提出了 PosGen，这是一个专门为 TSTL 场景中的细粒度行为分析设计的合成基准，旨在从生成长上下文的令牌的不断增加难度与识别新令牌位置的挑战中分离出来。我们在合成任务上的实验证明，在应用了共振 RoPE 之后，Transformer 在识别 OOD 位置方面表现更好、更稳健。我们的大量 LLM 实验也表明，在上游语言建模任务和各种下游长文本应用中，应用共振 RoPE 到当前最先进的 RoPE 缩放方法 YaRN 后，性能更优秀。

Feb, 2024

使用增强视觉 Transformer 进行图像重建

本文提出了一个基于 Vision Transformer (ViT) 的图像重构框架，利用 4 种优化技术和生成对抗网络（GANs）启发的对抗性损失函数，用于图像去噪和修复，实验表明该框架在结构相似性（SSIM）方面比 U-Net 模型高出超过 3.5％，对于这两个任务，提议的增强算法进一步展示了超过基准的 extasciitilde5％SSIM 的改进。

Jul, 2023

理解长上下文 LLMs 的 RoPE 扩展：一个注意力视角

以关注 LLMs 为研究热点，本文从注意力角度对 RoPE 拓展进行了详细研究，通过实验证明：1）保持与预训练长度一致的注意力模式可提高拓展性能；2）较大的注意力不确定性导致检索错误；3）在 RoPE 拓展中使用更长的预训练长度可以降低注意力不确定性并显著提升拓展性能。

Jun, 2024

3D-RPE: 通过 3D 旋转位置编码增强长上下文建模

使用 3D 旋转位置编码（3D-RPE）在三维球上对象进行编码，具有可控的长期衰减和提高的位置分辨率，可应用于模拟长上下文和长序列任务中，特别在长上下文自然语言理解任务中表现出性能的提升。

Jun, 2024

PoPE：基于勒让德正交多项式的位置编码在大型语言模型中的应用

通过理论洞察和实证分析，我们研究了位置编码在更高维度上不充分表示对注意机制、模型学习相对位置信息的能力和模型的收敛性等关键方面的影响，发现这些挑战不仅存在于绝对位置编码，也可能对旋转位置编码等相对位置编码方法的性能产生负面影响。因此，我们引入了一种新颖的解决方案，使用正交勒让德多项式的位置编码（PoPE）来克服现有方法的一些限制，并通过实验结果证明，PoPE 法可以提高基准 transformer 模型的性能，并显著加快模型的收敛速度。此外，我们还提出了关于位置编码的新理论视角，基于 PoPE 的出色性能。

Apr, 2024

球面位置编码对于变压器的应用

通过在变压器架构中引入地理标记信息（geotokens），本文基于 RoPE 架构提出了一种适用于球坐标系的位置编码机制，以达到在嵌入空间中保持地理位置与物理距离之间比例关系的目的。

Oct, 2023

RoPE 基于基准的上下文长度界限

在这篇论文中，我们发现位置嵌入在大型语言模型中起到了非常重要的作用。我们提出了长期衰减的新属性，并理论上和经验上揭示了上下文长度与位置嵌入基数之间的关系，为未来的长上下文训练提供了新的启示。

May, 2024