一种对称双编码密集检索框架用于知识密集型视觉问答

Apr, 2023

一种对称双编码密集检索框架用于知识密集型视觉问答

A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question Answering

Alireza Salemi, Juan Altmayer Pizzorno, Hamed Zamani

TL;DR本研究提出一种将检索器和阅读器相结合的新 KI-VQA 流程，并通过 DEDR 和 MM-FiD 两种方法进行知识密集型视觉问答 (KI-VQA) 任务，在两个著名的 KI-VQA 数据集 OK-VQA 和 FVQA 上进行了广泛评估，证明了该方法在准确率上优于现有技术。

Abstract

knowledge-intensive visual question answering (KI-VQA) refers to answering a question about an image whose answer does not lie in the image. This paper presents a new pipeline for KI-VQA tasks, consisting of a retriever and a reader. First, we introduce →

knowledge-intensive visual question answering dedr mm-fid textual answer multi-modal fusion

发现论文，激发创造

细粒度迟期交互多模态检索用于检索增强视觉问答

Fine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augmented Visual Question Answering (RA-VQA) by addressing limitations in the retriever and achieving approximately 8% improvement in PRRecall@5. Equipped with state-of-the-art models, RA-VQA achieves around 61% VQA score in the OK-VQA dataset.

Sep, 2023

基于动态键值存储增强的多步图推理方法用于基于知识的视觉问答

本文提出一种名为动态知识记忆增强多步图推理（DMMGR）的新型模型，能够在键 - 值知识记忆模块和空间感知图像图上执行显式和隐式推理，并在 KRVQR 和 FVQA 数据集上实现了新的最先进的准确性。

Mar, 2022

预训练多模态密集检索器用于视觉问答中的外部知识

本文研究了外部知识可视化问题回答的一类任务，提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型，该方法相较于当前最先进的不对称体系结构提供了 26.9％的 Precision@5 改进，并且在零 - shot 检索方案中表现出良好的能力。

Jun, 2023

带有外部知识的检索增强型视觉问答

我们提出了一种联合训练方案，该方案包括可微分的 DPR 集成答案生成，以便系统可以以端到端的方式进行训练。我们的实验表明，我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。我们还引入了新的诊断指标来分析检索和生成之间的交互作用，我们的模型的强大检索能力显着降低了训练所需的检索文档数量，从而在答案质量和训练所需的计算方面产生了显着的收益。

Oct, 2022

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均 4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Jun, 2024

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Nov, 2019

KG-FiD：将知识图谱融入解码器中进行开放领域问答

本文提出了一种新方法 KG-FiD，利用知识图谱过滤有噪声的检索段落，以及基于图神经网络的重排序方法，以提高开放域问答模型 FiD 的效率和准确性。

Oct, 2021

基于记忆增强的多线索推理的知识驱动视觉问答

通过生成多个线索进行推理的记忆神经网络 (MCR-MemNN) 作为一种全新的框架用于视觉问答，可以更好地利用外部知识来回答更一般性的问题，并且在各模态（图像、问题和知识库）中捕捉到最相关的信息。

Dec, 2023

利用动态记忆网络结合外部知识回答开放式视觉问题

本文提出了一种基于动态记忆网络和外部知识库的 VQA 算法，通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理，有效地回答包括开放领域问题在内的更复杂问题，并在视觉问答任务中取得了最好的表现。

Dec, 2017

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020