Feb, 2024
ReViT: 增强视觉变压器的注意力残差连接 用于视觉识别
ReViT: Enhancing Vision Transformers with Attention Residual Connections
for Visual Recognition
TL;DR通过引入新的残差注意力学习方法来改善Vision Transformer (ViT) 架构,包括增加视觉特征多样性和模型的鲁棒性,以提高识别系统的准确性。在五个图像分类基准测试中,通过对ImageNet1k、CIFAR10、CIFAR100、Oxford Flowers-102和Oxford-IIIT Pet数据集的评估,显示出所提方法的有效性和鲁棒性。此外,该方法在COCO2017数据集上的实验表明,在空间感知转换器模型中实现时,能发现和整合目标检测和目标实例分割的语义和空间关系。