从全网图片 - 文本数据中检索来提高图像识别

CVPRApr, 2023

从全网图片 - 文本数据中检索来提高图像识别

Improving Image Recognition by Retrieving from Web-Scale Image-Text Data

Ahmet Iscen, Alireza Fathi, Cordelia Schmid

TL;DR研究使用检索增强模型来提高计算机视觉任务的识别能力，引入了一种基于注意力机制的记忆模块，学习从外部记忆集合中检索出的每个例子的重要性，证明了使用 10 亿个图像 - 文本对的大规模记忆数据集的好处，并在 ImageNet-LT，Places-LT 和 Webvision 数据集中取得了最先进的准确性。

Abstract

retrieval augmented models are becoming increasingly popular for computer vision tasks after their recent success in NLP problems. The goal is to enhance the recognition capabilities of the model by retrieving similar examples for the visual input from an →

retrieval augmented models computer vision external memory set attention-based memory module massive-scale memory dataset

发现论文，激发创造

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

面向图像标注的检索增强架构

通过利用外部的 kNN 内存来改善生成过程，本研究提出了两个模型变体，这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocaps 数据集上的实验证实了我们的方法，证明了显式外部存储器的纳入可以显著提高标题的质量，尤其是在更大的检索语料库中。此研究为改善大规模的图像字幕生成打开了新的研究方向。

May, 2024

IMRAM: 交替匹配循环注意力记忆模型用于跨模态图像 - 文本检索

本文提出一种迭代匹配循环注意力存储（IMRAM）的方法，用于捕捉图像和文本之间的细粒度对应关系，表现出了最先进的性能。

Mar, 2020

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

零样本检索：用搜索引擎增强预训练模型

使用 NLP 和多模式学习，该论文介绍了如何通过搜索引擎检索来增强预训练模型，从而在测试时从互联网中检索到有用的数据，并更新模型以解决模型的不确定性，取得了零样本性能的显著改进。

Nov, 2023

基于注意力机制的自然语言人物检索

本文提出了一个基于注意力机制的自然语言人物检索系统，并成功应用于监控视频检索领域中，该系统使用了 Faster R-CNN 中的候选区域生成器来提取视觉特征，并利用 BLSTM 模型进行文本特征提取，将其融合后进行得分，可以更加精确地检索到所需的目标。

May, 2017

从机器标注的网络图片中进行小样本物体识别

本研究提出一种基于抽象记忆的架构，利用机器标注数据，通过查询外部记忆库中与查询问题视觉相似的数据，并将有用的信息写入到抽象记忆中，最终实现了对新领域物体的准确识别。

Dec, 2016

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

基于搜索引擎图像检索的多模态神经机器翻译

本文提出使用图像搜索引擎和文本感知的注意力视觉编码器来收集并过滤具有描述性的图像，以加强神经机器翻译的性能。在多个数据集上进行的实验证明，该方法较强的基线实现了显著的性能提升。

Jul, 2022