Oct, 2022

视觉 Transformer 的令牌 - 标签对齐

TL;DR本文提出了一种名为 TL-Align 的方法, 通过追踪转换后的令牌与原始令牌之间的对应关系有效地解决了数据混合策略中的令牌波动现象,提高了 ViTs 在图像分类,语义分割,客观检测和迁移学习任务方面的性能。