用于外部知识视觉问答的段落检索

SIGIRMay, 2021

用于外部知识视觉问答的段落检索

Passage Retrieval for Outside-Knowledge Visual Question Answering

Chen Qu, Hamed Zamani, Liu Yang, W. Bruce Croft, Erik Learned-Miller

TL;DR本文研究了在多模态信息检索场景下，运用解析文本问题和图像进行感知的方法，探索了基于自定义大型未结构化收集文本的文本检索方法，并在此基础上构建了一个双编码器稠密信息检索模型，通过实验对模型进行了验证，得出了补充文本拓扑自动增强方法对检索结果的提升效果较为有效，密集检索方法和人工生成字幕检索方法的检索性能近似。

Abstract

In this work, we address multi-modal information needs that contain text questions and images by focusing on passage retrieval for outside-knowledge →

multi-modal information passage retrieval visual question answering sparse retrieval dense retrieval

发现论文，激发创造

预训练多模态密集检索器用于视觉问答中的外部知识

本文研究了外部知识可视化问题回答的一类任务，提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型，该方法相较于当前最先进的不对称体系结构提供了 26.9％的 Precision@5 改进，并且在零 - shot 检索方案中表现出良好的能力。

Jun, 2023

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法，为终端 QA 系统的最新性能奠定了基础。

Apr, 2020

面向实体的密集语段检索用于外部知识视觉问答

本论文提出了一种 Entity-Focused Retrieval (EnFoRe) 模型，通过识别问题相关实体来检索更具特定性的知识。实验证明，我们的 EnFoRe 模型可以在当前最大的 OK-VQA 数据集上实现卓越的检索性能，并与最先进的 VQA 模型结合，实现了新的最先进表现。

Oct, 2022

带有外部知识的检索增强型视觉问答

我们提出了一种联合训练方案，该方案包括可微分的 DPR 集成答案生成，以便系统可以以端到端的方式进行训练。我们的实验表明，我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。我们还引入了新的诊断指标来分析检索和生成之间的交互作用，我们的模型的强大检索能力显着降低了训练所需的检索文档数量，从而在答案质量和训练所需的计算方面产生了显着的收益。

Oct, 2022

思考与观察的结合用于基于外部知识的视觉问答

本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架，将跨模态空间约束到自然语言空间中，使得视觉特征直接保留在其中，并且从自然语言空间中获得更多的类型知识，实验证明其在多数情况下表现优异。

May, 2023

基于知识的视觉问答的跨模态检索

基于知识的视觉问答（VQA）涉及使用多模态知识库的信息检索，命名实体的多样化视觉表现使其难以识别，我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距，对单模态检索产生互补作用，通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验，我们提供了经验证据。此外，我们研究了三种不同的模型微调策略：单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索，与三个数据集上的数十亿参数模型相竞争，同时在概念上更简单、计算上更廉价。

Jan, 2024

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022

多模态查询的端到端知识检索

本文介绍了一个新的数据集 ReMuQ，针对跨媒体检索的任务，提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`，并引入了一个新的预训练任务，实现了对多模态查询的知识检索，并在两个数据集上取得了优秀的检索效果。

Jun, 2023

基于知识的问答弱监督视觉 - 检索 - 阅读模型

本篇研究提出了一种基于知识库检索的视觉问答模型，包括视觉知识检索模型和基于分类和提取两种方式的视觉问题回答模型，并探讨了利用文本和图像进行知识检索的多种方法。实验表明，良好的知识检索模型可以显著提高在 OK-VQA 挑战赛上的视觉问题回答模型表现。

Sep, 2021

面向基于知识的视觉问答的多模式逆填空任务

本文提出一种基于预训练的多模态逆推理任务方法，用于解决基于知识库的视觉问答，该方法适用于不同的神经网络架构，相比于没有预训练的基准模型，检索和阅读理解的相对 MRR 和相对 F1 分别提高了 9% 和 15%。

Jan, 2023