VQA4CIR：用视觉问答提升组合图像检索

Dec, 2023

VQA4CIR：用视觉问答提升组合图像检索

VQA4CIR: Boosting Composed Image Retrieval with Visual Question Answering

Chun-Mei Feng, Yang Bai, Tao Luo, Zhen Li, Salman Khan...

TL;DR通过使用视觉问答技术来解决复合图像检索中的不一致性问题，提出了 VQA4CIR 方法，该方法能够显著提高检索性能，实验证明其优于目前的 CIR 方法。

Abstract

Albeit progress has been made in composed image retrieval (CIR), we empirically find that a certain percentage of failure retrieval results are not consistent with their relative captions. To address this issue, this work provides a →

composed image retrieval visual question answering vqa4cir qa generation cir methods

发现论文，激发创造

利用视觉问答进行图像字幕排名

本研究将视觉问题回答任务视为 “特征提取” 模块，提取图像和标题的表征，以此为基础对图像 - 标题进行排序并提出融合模型提高图像 - 标题匹配一致性的表现。实验发现，该模型在 MSCOCO 数据集上的字幕检索提高了 7.1％，图像提取提高了 4.4％。

May, 2016

CaLa: 补充关联学习增强组合图像检索

该论文提出了一种综合了图像和文本之间多种关系的方法，通过使用基于对齐机制和互补思考策略的框架，提高了复杂图像检索的性能。

May, 2024

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

逆向视觉问答：一个新的基准和 VQA 诊断工具

本篇文章提出了 iVQA 问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉 - 语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有 VQA 模型，揭示其内在缺陷的方法。

Mar, 2018

基于图像到句子的不对称零样本组合图像检索

基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法，通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中，结合文本修饰符进一步提取图像的视觉信息，使用轻量级模型进行查询，大规模 VL 模型用于图库，实验结果表明该方法能够更好地应对真实检索场景，提高检索的准确性和效率。

Mar, 2024

iVQA: 反向视觉问答

本文提出了逆向视觉问答（iVQA）问题，并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型，可以逐渐调整其注意力焦点，以便更好地理解给定的图像。实验结果表明，我们的模型可以生成多样性、语法正确且内容相关的问题，与给定的答案相匹配。

Oct, 2017

基于视觉和语言的无需训练的组合图像检索

通过使用大规模视觉语言模型（VLMs）和大型语言模型（LLMs）并基于文本目标修改对参考图像进行标题化，然后通过 CLIP 进行检索，我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法，以训练免费的方式解决 CIR 问题，并取得了与有监督的方法相竞争的性能。

Oct, 2023

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

自我批判推理用于稳健的视觉问答

该研究提出了自我批判的训练目标，通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域，确保正确答案的视觉解释与竞争答案候选者相比更匹配，以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集，使用文本解释获得 49.5％，使用自动注释区域获得 48.5％，在 VQA 泛化任务中达到了最新的技术水平。

May, 2019

使用预训练的视觉语言模型在现实生活图像上进行图像检索

本研究提出了一个基于 Transformers 的模型 CIRPLANT，使用人类自然语言条件进行直观特征的修改，并结合最近邻方法实现图像的检索，实验结果表明该模型在开放域图像检索中具有很好的性能。

Aug, 2021