带有外部知识的检索增强型视觉问答

EMNLPOct, 2022

带有外部知识的检索增强型视觉问答

Retrieval Augmented Visual Question Answering with Outside Knowledge

Weizhe Lin, Bill Byrne

TL;DR我们提出了一种联合训练方案，该方案包括可微分的 DPR 集成答案生成，以便系统可以以端到端的方式进行训练。我们的实验表明，我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。我们还引入了新的诊断指标来分析检索和生成之间的交互作用，我们的模型的强大检索能力显着降低了训练所需的检索文档数量，从而在答案质量和训练所需的计算方面产生了显着的收益。

Abstract

outside-knowledge visual question answering (OK-VQA) is a challenging VQA task that requires retrieval of external knowledge to answer questions about images. Recent OK-VQA systems use dense passage retrieval (DP

outside-knowledge visual question answering dense passage retrieval joint training end-to-end diagnostic metrics

发现论文，激发创造

预训练多模态密集检索器用于视觉问答中的外部知识

本文研究了外部知识可视化问题回答的一类任务，提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型，该方法相较于当前最先进的不对称体系结构提供了 26.9％的 Precision@5 改进，并且在零 - shot 检索方案中表现出良好的能力。

Jun, 2023

基于知识的问答弱监督视觉 - 检索 - 阅读模型

本篇研究提出了一种基于知识库检索的视觉问答模型，包括视觉知识检索模型和基于分类和提取两种方式的视觉问题回答模型，并探讨了利用文本和图像进行知识检索的多种方法。实验表明，良好的知识检索模型可以显著提高在 OK-VQA 挑战赛上的视觉问题回答模型表现。

Sep, 2021

OK-VQA：需要外部知识的视觉问答基准

本文提出了名为 OK-VQA 的基于知识的视觉问答基准，要求使用外部知识资源来回答问题，该任务是多样的、困难的和大型的，与以前的基于知识的 VQA 数据集相比具有更高的难度。

May, 2019

开放域问答系统能回答视觉知识问题吗？

本研究提出了一种基于文本的视觉问题解答系统，此系统无需额外外部知识，仅利用 BERT 模型进行重新提问，表现优异，且仅使用训练数据的 10％。

Feb, 2022

面向实体的密集语段检索用于外部知识视觉问答

本论文提出了一种 Entity-Focused Retrieval (EnFoRe) 模型，通过识别问题相关实体来检索更具特定性的知识。实验证明，我们的 EnFoRe 模型可以在当前最大的 OK-VQA 数据集上实现卓越的检索性能，并与最先进的 VQA 模型结合，实现了新的最先进表现。

Oct, 2022

千言万语胜于一幅图：自然语言为中心的外部知识视觉问答

该论文提出了一种利用海量知识库和预训练语言模型的模型，通过将图像转换为纯文本，以进行知识检索和自然语言生成问答，其中使用的框架为 TRiG 框架，并取得了比所有最先进的监督方法多至少 11.1％的绝对优势。

Jan, 2022

利用动态记忆网络结合外部知识回答开放式视觉问题

本文提出了一种基于动态记忆网络和外部知识库的 VQA 算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Dec, 2017

用于外部知识视觉问答的段落检索

本文研究了在多模态信息检索场景下，运用解析文本问题和图像进行感知的方法，探索了基于自定义大型未结构化收集文本的文本检索方法，并在此基础上构建了一个双编码器稠密信息检索模型，通过实验对模型进行了验证，得出了补充文本拓扑自动增强方法对检索结果的提升效果较为有效，密集检索方法和人工生成字幕检索方法的检索性能近似。

May, 2021

细粒度迟期交互多模态检索用于检索增强视觉问答

Fine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augmented Visual Question Answering (RA-VQA) by addressing limitations in the retriever and achieving approximately 8% improvement in PRRecall@5. Equipped with state-of-the-art models, RA-VQA achieves around 61% VQA score in the OK-VQA dataset.

Sep, 2023

选择、替换、搜索：一种新的用于知识增强视觉问答的基准测试

该研究针对现有数据集中存在的限制，建立了一个新的基于结构模式的跨模态问答数据集和挑战，同时提出了一个基于神经网络的透明的 OKVQA 系统 S3，该系统在新数据集上实现了比较好的表现。

Mar, 2021