预训练多模态密集检索器用于视觉问答中的外部知识

Jun, 2023

预训练多模态密集检索器用于视觉问答中的外部知识

Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering

Alireza Salemi, Mahta Rafiee, Hamed Zamani

TL;DR本文研究了外部知识可视化问题回答的一类任务，提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型，该方法相较于当前最先进的不对称体系结构提供了 26.9％的 Precision@5 改进，并且在零 - shot 检索方案中表现出良好的能力。

Abstract

This paper studies a category of visual question answering tasks, in which accessing external knowledge is necessary for answering the questions. This category is called outside-knowledge →

visual question answering outside-knowledge asymmetric dense retrieval model pre-training zero-shot retrieval

发现论文，激发创造

带有外部知识的检索增强型视觉问答

我们提出了一种联合训练方案，该方案包括可微分的 DPR 集成答案生成，以便系统可以以端到端的方式进行训练。我们的实验表明，我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。我们还引入了新的诊断指标来分析检索和生成之间的交互作用，我们的模型的强大检索能力显着降低了训练所需的检索文档数量，从而在答案质量和训练所需的计算方面产生了显着的收益。

Oct, 2022

用于外部知识视觉问答的段落检索

本文研究了在多模态信息检索场景下，运用解析文本问题和图像进行感知的方法，探索了基于自定义大型未结构化收集文本的文本检索方法，并在此基础上构建了一个双编码器稠密信息检索模型，通过实验对模型进行了验证，得出了补充文本拓扑自动增强方法对检索结果的提升效果较为有效，密集检索方法和人工生成字幕检索方法的检索性能近似。

May, 2021

BOK-VQA：基于外部知识的双语视觉问答系统：图表示预训练

提出了一种多语言知识外部问答（BOK-VQA）数据集和一个框架，通过图嵌入的形式有效地将知识信息注入到问答系统中，并通过深入分析证明了构建训练数据中包含的知识信息对于问答系统的实际效果。

Jan, 2024

基于知识的问答弱监督视觉 - 检索 - 阅读模型

本篇研究提出了一种基于知识库检索的视觉问答模型，包括视觉知识检索模型和基于分类和提取两种方式的视觉问题回答模型，并探讨了利用文本和图像进行知识检索的多种方法。实验表明，良好的知识检索模型可以显著提高在 OK-VQA 挑战赛上的视觉问题回答模型表现。

Sep, 2021

面向实体的密集语段检索用于外部知识视觉问答

本论文提出了一种 Entity-Focused Retrieval (EnFoRe) 模型，通过识别问题相关实体来检索更具特定性的知识。实验证明，我们的 EnFoRe 模型可以在当前最大的 OK-VQA 数据集上实现卓越的检索性能，并与最先进的 VQA 模型结合，实现了新的最先进表现。

Oct, 2022

思考与观察的结合用于基于外部知识的视觉问答

本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架，将跨模态空间约束到自然语言空间中，使得视觉特征直接保留在其中，并且从自然语言空间中获得更多的类型知识，实验证明其在多数情况下表现优异。

May, 2023

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为 OK-VQA 的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的 VQA 数据集相比具有更高的难度。

May, 2019

千言万语胜于一幅图：自然语言为中心的外部知识视觉问答

该论文提出了一种利用海量知识库和预训练语言模型的模型，通过将图像转换为纯文本，以进行知识检索和自然语言生成问答，其中使用的框架为 TRiG 框架，并取得了比所有最先进的监督方法多至少 11.1％的绝对优势。

Jan, 2022

开放域问答系统能回答视觉知识问题吗？

本研究提出了一种基于文本的视觉问题解答系统，此系统无需额外外部知识，仅利用 BERT 模型进行重新提问，表现优异，且仅使用训练数据的 10％。

Feb, 2022

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024