CVPRApr, 2023

从全网图片 - 文本数据中检索来提高图像识别

TL;DR研究使用检索增强模型来提高计算机视觉任务的识别能力,引入了一种基于注意力机制的记忆模块,学习从外部记忆集合中检索出的每个例子的重要性,证明了使用 10 亿个图像 - 文本对的大规模记忆数据集的好处,并在 ImageNet-LT,Places-LT 和 Webvision 数据集中取得了最先进的准确性。