一种对称双编码密集检索框架用于知识密集型视觉问答
Fine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augmented Visual Question Answering (RA-VQA) by addressing limitations in the retriever and achieving approximately 8% improvement in PRRecall@5. Equipped with state-of-the-art models, RA-VQA achieves around 61% VQA score in the OK-VQA dataset.
Sep, 2023
本文提出一种名为动态知识记忆增强多步图推理(DMMGR)的新型模型,能够在键 - 值知识记忆模块和空间感知图像图上执行显式和隐式推理,并在 KRVQR 和 FVQA 数据集上实现了新的最先进的准确性。
Mar, 2022
本文研究了外部知识可视化问题回答的一类任务,提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型,该方法相较于当前最先进的不对称体系结构提供了 26.9%的 Precision@5 改进,并且在零 - shot 检索方案中表现出良好的能力。
Jun, 2023
我们提出了一种联合训练方案,该方案包括可微分的 DPR 集成答案生成,以便系统可以以端到端的方式进行训练。 我们的实验表明,我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。 我们还引入了新的诊断指标来分析检索和生成之间的交互作用,我们的模型的强大检索能力显着降低了训练所需的检索文档数量,从而在答案质量和训练所需的计算方面产生了显着的收益。
Oct, 2022
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均 4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
该研究提出了一种新的模型来从视觉和语义两个角度描述图像,在多角度图像特征的基础上提出了特征选择框架,逐层适应性地捕捉问题相关信息,并在基准视觉对话数据集上取得了最先进的结果。更重要的是,通过可视化门控值,我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用,为我们理解人类认知在视觉对话中的作用提供了见解。
Nov, 2019
本文提出了一种新方法 KG-FiD,利用知识图谱过滤有噪声的检索段落,以及基于图神经网络的重排序方法,以提高开放域问答模型 FiD 的效率和准确性。
Oct, 2021
通过生成多个线索进行推理的记忆神经网络 (MCR-MemNN) 作为一种全新的框架用于视觉问答,可以更好地利用外部知识来回答更一般性的问题,并且在各模态(图像、问题和知识库)中捕捉到最相关的信息。
Dec, 2023
本文提出了一种基于动态记忆网络和外部知识库的 VQA 算法,通过对外部知识的检索和动态记忆网络对知识和图像的关注与推理,有效地回答包括开放领域问题在内的更复杂问题,并在视觉问答任务中取得了最好的表现。
Dec, 2017
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020