重新思考和改进相对位置编码在视觉变换器中的应用
本研究提出了随机位置编码的方法来生成代替传统加性(正弦)位置编码的 PE,并证明其类似于 RPE,建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题,并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。
May, 2021
本文针对基于相对位置编码的 Transformer 模型展开数学分析,证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络,但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验,证明了其在参数效率和性能上均超过了其他模型。
May, 2022
通过单元转换,在现有线性相对位置编码方法的基础上,提出了家族化的线性相对位置编码算法,实现了保持线性空间 - 时间复杂性的新相对位置编码方法框架,并在语言建模、文本分类和图像分类等各种应用中表现出了最先进的性能,强调了一个用于设计线性变压器相关位置编码方法的普适范例。
Jul, 2023
使用 RoPE(Rotary Position Embedding)在 Vision Transformer(ViT)中的实际实现对 2D 视觉数据进行了综合分析,结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率,从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南,承诺在最小的额外计算开销下提高主干性能。
Mar, 2024
使用快速傅里叶变换(FFT)可以有效加速具有相对位置编码(RPE)的 Transformer 模型中的注意力计算,并且适当使用相对位置编码可以缓解基准核化注意力的训练不稳定性问题。
Jun, 2021
该研究提出了一种新的位置空间门控单元(PoSGU),用于处理视觉多层感知器中的局部信息和多粒度非局部关系,从而构建了一种新型的视觉 MLP,称为 PosMLP,减少了参数复杂度而其性能得到提高。
Jul, 2022
本文提出了一种条件位置编码方案 (CPE) 用于视觉 Transformers,通过在输入标记的本地邻域上生成并使其动态生成的位置编码,以解决模型寻找较长输入序列的问题,从而在图像分类任务中保持所需的平移不变性,并通过实验证明,CPVT 比使用学习位置编码的注意力地图拥有更好的性能表现。
Feb, 2021
图转换器的区分能力与位置编码的选择紧密相关,本文旨在理解绝对位置编码和相对位置编码之间的关系,并展示了在图转换器中如何交换这两种类型的位置编码而保持它们的区分能力。基于理论结果,我们对几种位置编码进行了研究并比较了它们在转换器中的区分能力,从而为位置编码的未来设计提供指导。
Feb, 2024
研究了 transformers 在时间序列数据中应用时所需的位置编码方法,提出了一种新的绝对位置编码方法,称为时间绝对位置编码(tAPE);提出了一种高效的相对位置编码实现方法(eRPE),并将 tAPE/eRPE 与卷积输入编码相结合,提出了一种新的多元时间序列分类(MTSC)模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明,优于最先进的卷积和 transformer-based 模型。
May, 2023
学习可学习的位置编码对关系推理任务的重要性进行研究,发现可学习的位置编码优于常用的其他位置编码,并且初始化对学到的表示和下游泛化性能有着重要影响。结果表明,在没有提供或无法确定真实位置的任务中,学习高性能和鲁棒性的位置编码对关系推理任务非常重要。
Jun, 2024