Feb, 2021

训练视觉 Transformer 进行图像检索

TL;DR本文提出一种基于变换器的图像检索方法,通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练,结合对比损失和微分熵正则化,相比于卷积方法,提高了图像检索性能,特别是对于短向量表示和低分辨率图像。