Feb, 2022

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

TL;DR本文提出了一种利用先验卷积 IB(intrinsic bias)的 Vision transformer 架构(ViTAE)来解决长程依赖建模中存在的局限性,并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。