ICLRFeb, 2021

视觉 Transformer 的条件位置编码

TL;DR本文提出了一种条件位置编码方案 (CPE) 用于视觉 Transformers,通过在输入标记的本地邻域上生成并使其动态生成的位置编码,以解决模型寻找较长输入序列的问题,从而在图像分类任务中保持所需的平移不变性,并通过实验证明,CPVT 比使用学习位置编码的注意力地图拥有更好的性能表现。