CVPRJul, 2022

V$^2$L:将视觉和视觉语言模型应用于大规模产品检索

TL;DR本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合,运用 20 个模型的结合方式,在对 coarse labels 进行两阶段训练的基础上,进行了精细化的自我监督训练。此外,该模型通过使用文本描述训练图像作为监督信号,对图像编码器进行了微调。最终,该模型达到了 0.7623 MAR@10 的成绩,超过了所有竞争对手。