Mar, 2024
视觉 Transformer 的旋转位置嵌入
Rotary Position Embedding for Vision Transformer
Byeongho Heo, Song Park, Dongyoon Han, Sangdoo Yun
TL;DR使用 RoPE(Rotary Position Embedding)在 Vision Transformer(ViT)中的实际实现对 2D 视觉数据进行了综合分析,结果显示 RoPE 在推理时能够保持精度的同时提高图像分辨率,从而改善 ImageNet-1k、COCO 检测和 ADE-20k 分割的性能。此研究提供了将 RoPE 应用于 ViT 的详细指南,承诺在最小的额外计算开销下提高主干性能。