视觉 Transformer 的条件位置编码

ICLRFeb, 2021

Conditional Positional Encodings for Vision Transformers

Xiangxiang Chu, Zhi Tian, Bo Zhang, Xinlong Wang, Chunhua Shen

TL;DR本文提出了一种条件位置编码方案 (CPE) 用于视觉 Transformers，通过在输入标记的本地邻域上生成并使其动态生成的位置编码，以解决模型寻找较长输入序列的问题，从而在图像分类任务中保持所需的平移不变性，并通过实验证明，CPVT 比使用学习位置编码的注意力地图拥有更好的性能表现。

Abstract

We propose a conditional positional encoding (CPE) scheme for vision Transformers. Unlike previous fixed or learnable positional encodings, which are pre-defined and independent of input tokens, CPE is dynamically generated and conditioned on the local neighborhood of the input tokens.

conditional positional encoding vision transformers image classification translation-invariance attention maps

发现论文，激发创造

重新思考和改进相对位置编码在视觉变换器中的应用

本文介绍了相对位置编码的在图像识别中的研究，提出了基于 2D 图像的新型相对位置编码方法，即图像 RPE。经过实验验证，该方法可以显著提高 DeiT 和 DETR 的准确率，而不需要额外的超参数调节。

Jul, 2021

Transformer 的动态位置编码

本研究提出了一种新的动态位置编码（DPE）方法，通过新的位置嵌入来纠正目标单词的位置信息，相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。

Apr, 2022

相对位置编码在线性复杂度 Transformer 中的应用

本研究提出了随机位置编码的方法来生成代替传统加性（正弦）位置编码的 PE，并证明其类似于 RPE，建立了位置编码与相关高斯过程的交叉协方差结构之间的联系。这种方法能够弥补针对最近的线性 Transformer 变量不可用于 RPE 的问题，并展示了其在 Long-Range Arena 基准测试和音乐生成方面的性能表现。

May, 2021

CAPE：用于长度推断的上下文自适应位置编码

提出了一种动态根据输入语境调整的上下文自适应位置编码方法，通过实验验证在真实世界数据集上改善了模型性能，提升了训练长度和长度泛化能力，同时保留了局部和反局部信息。

May, 2024

Transformer 的简单有效位置编码

本文介绍了一种新的机制 ——Decoupled Positional Attention，将位置和段信息编码为 Transformer 模型，提高了训练和推理效率，在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现，并进一步将该方法推广到远程的 transformers，显示了性能提升。

Apr, 2021

时间序列预测中位置编码的引人注目特性

Transformer-based methods have made significant progress in time series forecasting, but research on positional encoding remains insufficient. This paper introduces two new positional encodings, Temporal Position Encoding (T-PE) and Variable Positional Encoding (V-PE), and a Transformer-based dual-branch framework named T2B-PE, demonstrating superior robustness and effectiveness in extensive experiments.

Apr, 2024

位置编码的局部性与对称性

位置编码（PEs）用于将单词顺序信息注入基于 Transformer 的语言模型中。本研究对双向遮蔽语言模型（BERT-style）中的位置编码进行了系统研究，揭示了其核心功能和与下游任务性能相关的两个常见特性（局部性和对称性），并对当前位置编码的弱点进行了定量评估。这些结果可为开发基于 Transformer 的语言模型的更好位置编码提供基础。

Oct, 2023

使用连续的增强位置嵌入编码相对位置的 CAPE

这篇论文提出了一种增强型绝对位置嵌入 (CAPE) 的方法，使得 Transformer 神经网络在保持绝对位置嵌入简单和快速的同时，能够更好地推广到训练时未曾出现的更长序列，并在机器翻译等领域中获得更好的性能。

Jun, 2021

改进 transformer 的位置编码以用于多元时间序列分类

研究了 transformers 在时间序列数据中应用时所需的位置编码方法，提出了一种新的绝对位置编码方法，称为时间绝对位置编码（tAPE）；提出了一种高效的相对位置编码实现方法（eRPE），并将 tAPE/eRPE 与卷积输入编码相结合，提出了一种新的多元时间序列分类（MTSC）模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明，优于最先进的卷积和 transformer-based 模型。

May, 2023

GridPE: 基于网格细胞启发框架统一位置编码的 Transformer 算法

通过傅立叶分析和计算神经科学的最新发现，本研究引入一种新颖的位置编码方案，受到网格细胞的启发，利用嵌入到金字塔视觉变换器架构中的 GridPE 技术，提供了一个在任意高维空间中进行位置编码的统一框架，并在转换器的性能上显著提高表现。

Jun, 2024