VQA4CIR:用视觉问答提升组合图像检索
本研究将视觉问题回答任务视为 “特征提取” 模块,提取图像和标题的表征,以此为基础对图像 - 标题进行排序并提出融合模型提高图像 - 标题匹配一致性的表现。实验发现,该模型在 MSCOCO 数据集上的字幕检索提高了 7.1%,图像提取提高了 4.4%。
May, 2016
该文介绍了一种新的方法来提高视觉问题回答的性能,该方法利用深度学习的技术,结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述,并利用在线梯度方法自动确定与问题相关的描述来训练模型,实验结果表明,本方法取得了视觉问题回答领域的最新成果。
Jun, 2019
本篇文章提出了 iVQA 问题,利用变分模型来生成多样化、语法正确、与答案相关性较强的问题,并将其作为一种新型的视觉 - 语言理解基准测试。同时,还提出了使用强化学习框架来诊断现有 VQA 模型,揭示其内在缺陷的方法。
Mar, 2018
基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法,通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中,结合文本修饰符进一步提取图像的视觉信息,使用轻量级模型进行查询,大规模 VL 模型用于图库,实验结果表明该方法能够更好地应对真实检索场景,提高检索的准确性和效率。
Mar, 2024
本文提出了逆向视觉问答(iVQA)问题,并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型,可以逐渐调整其注意力焦点,以便更好地理解给定的图像。实验结果表明,我们的模型可以生成多样性、语法正确且内容相关的问题,与给定的答案相匹配。
Oct, 2017
通过使用大规模视觉语言模型(VLMs)和大型语言模型(LLMs)并基于文本目标修改对参考图像进行标题化,然后通过 CLIP 进行检索,我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法,以训练免费的方式解决 CIR 问题,并取得了与有监督的方法相竞争的性能。
Oct, 2023
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
该研究提出了自我批判的训练目标,通过确定人类视觉 / 文本解释或仅来自问题和答案中的重要单词的具有影响力的图像区域,确保正确答案的视觉解释与竞争答案候选者相比更匹配,以解决 Visual Question Answering 系统在训练数据上捕捉表面统计相关性的问题。应用于 VQA-CP 数据集,使用文本解释获得 49.5%,使用自动注释区域获得 48.5%,在 VQA 泛化任务中达到了最新的技术水平。
May, 2019
本研究提出了一个基于 Transformers 的模型 CIRPLANT,使用人类自然语言条件进行直观特征的修改,并结合最近邻方法实现图像的检索,实验结果表明该模型在开放域图像检索中具有很好的性能。
Aug, 2021