训练视觉Transformer进行图像检索

Feb, 2021

Training Vision Transformers for Image Retrieval

Alaaeldin El-Nouby, Natalia Neverova, Ivan Laptev, Hervé Jégou

TL;DR本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Abstract

transformers have shown outstanding results for natural language understanding and, more recently, for image classification. We here extend this work and propose a transformer-based approach for image retrieval: