Feb, 2024

ReViT: 增强视觉变压器的注意力残差连接 用于视觉识别

TL;DR通过引入新的残差注意力学习方法来改善 Vision Transformer (ViT) 架构,包括增加视觉特征多样性和模型的鲁棒性,以提高识别系统的准确性。在五个图像分类基准测试中,通过对 ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102 和 Oxford-IIIT Pet 数据集的评估,显示出所提方法的有效性和鲁棒性。此外,该方法在 COCO2017 数据集上的实验表明,在空间感知转换器模型中实现时,能发现和整合目标检测和目标实例分割的语义和空间关系。