细粒度迟期交互多模态检索用于检索增强视觉问答

Sep, 2023

细粒度迟期交互多模态检索用于检索增强视觉问答

Fine-grained Late-interaction Multi-modal Retrieval for Retrieval Augmented Visual Question Answering

Weizhe Lin, Jinghong Chen, Jingbiao Mei, Alexandru Coca, Bill Byrne

TL;DRFine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augmented Visual Question Answering (RA-VQA) by addressing limitations in the retriever and achieving approximately 8% improvement in PRRecall@5. Equipped with state-of-the-art models, RA-VQA achieves around 61% VQA score in the OK-VQA dataset.

Abstract

knowledge-based visual question answering (KB-VQA) requires VQA systems to utilize knowledge from existing knowledge bases to answer visually-grounded questions. retrieval-augmented visual question answering (RA-

knowledge-based visual question answering retrieval-augmented visual question answering dense passage retrieval fine-grained late-interaction multi-modal retrieval prrecall@5

发现论文，激发创造

PreFLMR：大规模细粒度后交互多模态检索器的扩展

用于知识驱动的视觉问答的大规模多模型训练和评估框架 M2KR，通过发展 PreFLMR 模型，在一系列任务中取得了最新的最先进的结果，并研究了 PreFLMR 的扩展性行为，为未来的多模型检索系统开发提供了有用的参考。

Feb, 2024

面向生成视觉问答的多模态提示检索

提出了一种结合多模态提示检索和生成模型的方法，该方法可以在医学领域的视觉问题回答任务中比非检索方法提高高达 30％的精度。

Jun, 2023

一种对称双编码密集检索框架用于知识密集型视觉问答

本研究提出一种将检索器和阅读器相结合的新 KI-VQA 流程，并通过 DEDR 和 MM-FiD 两种方法进行知识密集型视觉问答 (KI-VQA) 任务，在两个著名的 KI-VQA 数据集 OK-VQA 和 FVQA 上进行了广泛评估，证明了该方法在准确率上优于现有技术。

Apr, 2023

CFRet-DVQA：用于文档视觉问答的逐步细化检索和高效调整

通过检索和高效调整的方式，CFRet-DVQA 方法实现了文档视觉问答中的信息定位和答案生成，展示出与单页和多页文档相关领域的最先进或竞争性的结果。

Feb, 2024

检索遇见推理：即使高中教科书知识也有益于多模态推理

通过引入一种名为 RMR 的新型多模式 RAG 框架，本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力，并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能，凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。

May, 2024

带有外部知识的检索增强型视觉问答

我们提出了一种联合训练方案，该方案包括可微分的 DPR 集成答案生成，以便系统可以以端到端的方式进行训练。我们的实验表明，我们的方案优于最近的具有强大 DPR 进行检索的 OK-VQA 系统。我们还引入了新的诊断指标来分析检索和生成之间的交互作用，我们的模型的强大检索能力显着降低了训练所需的检索文档数量，从而在答案质量和训练所需的计算方面产生了显着的收益。

Oct, 2022

超越双线性：面向视觉问答的广义多模态分解高阶池化

本文利用深度神经网络中的协同注意机制与通用的多模式高阶因式化池化方法实现多模态特征的融合，使用 KL（Kullback-Leibler）散度作为损失函数，最终实现了优越的视觉问答表现。

Aug, 2017

面向大规模视频库的检索增强生成

通过使用大型语言模型（LLM）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段，并将用户查询与此元数据集成以生成具有特定视频时间戳的响应，我们提出了一种在视频库中应用检索增强生成（RAG）的可互操作体系结构，该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。

Jun, 2024

利用大型语言模型的生成式多模态知识检索

我们提出了一种创新的端到端生成框架，用于多模态知识检索，通过利用大型语言模型 (LLMs) 作为虚拟知识库，使用对象感知的前缀调优技术来指导多粒度视觉学习，将多粒度视觉特征对齐到 LLM 的文本特征空间中，通过统一格式的指令数据构建模型训练，最后，我们提出了知识引导的生成策略，在解码步骤中施加先验约束，促进独特知识线索的生成，在三个基准测试中实验证明，与强基线方法相比，在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。

Jan, 2024

多模态查询的端到端知识检索

本文介绍了一个新的数据集 ReMuQ，针对跨媒体检索的任务，提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`，并引入了一个新的预训练任务，实现了对多模态查询的知识检索，并在两个数据集上取得了优秀的检索效果。

Jun, 2023