Mar, 2024

视觉 Transformer 的旋转位置嵌入

TL;DR使用 RoPE(Rotary Position Embedding)在 Vision Transformer(ViT)中的实际实现对 2D 视觉数据进行了综合分析,结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率,从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南,承诺在最小的额外计算开销下提高主干性能。