Jul, 2024

LookupViT: 将视觉信息压缩到有限数量的标记

TL;DRLookupViT通过压缩高分辨率的令牌以减少Vision Transformers的推理成本,并通过双向交叉注意机制实现低分辨率和高分辨率令牌之间的信息共享。通过应用于多个领域的实证研究,LookupViT在减少FLOPs的同时提高了准确性和对图像分类的稳健性和泛化性能。