利用大型语言模型的生成式多模态知识检索

AAAIJan, 2024

利用大型语言模型的生成式多模态知识检索

Generative Multi-Modal Knowledge Retrieval with Large Language Models

Xinwei Long, Jiali Zeng, Fandong Meng, Zhiyuan Ma, Kaiyan Zhang...

TL;DR我们提出了一种创新的端到端生成框架，用于多模态知识检索，通过利用大型语言模型 (LLMs) 作为虚拟知识库，使用对象感知的前缀调优技术来指导多粒度视觉学习，将多粒度视觉特征对齐到 LLM 的文本特征空间中，通过统一格式的指令数据构建模型训练，最后，我们提出了知识引导的生成策略，在解码步骤中施加先验约束，促进独特知识线索的生成，在三个基准测试中实验证明，与强基线方法相比，在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。

Abstract

knowledge retrieval with multi-modal queries plays a crucial role in supporting knowledge-intensive multi-modal applications. However, existing methods face challenges in terms of their effectiveness and training

knowledge retrieval multi-modal queries generative framework large language models cross-modal interactions

发现论文，激发创造

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023

生成跨模态检索：以检索和超越为目的的多模态语言模型中的图像记忆

构建在生成式语言模型基础上的多模态大型语言模型（MLLMs）拥有记忆和重新召回图像能力，介绍了一种基于生成式跨模态检索框架的方法，通过将图像存储在 MLLMs 中以实现记忆功能，并有效地进行跨模态检索。

Feb, 2024

利用大型语言模型增强企业知识库的问答能力

通过使用大规模语言模型（LLMs），我们提出了一种名为 EKRG 的新型检索 - 生成框架，以极低的注释成本实现了企业知识库的问答。通过独特的指令调优方法和针对连贯性思维的微调方法，我们的框架在真实世界数据集上进行了广泛实验，并取得了显著的有效性。

Apr, 2024

基于大型语言模型的多模态检索用于语音识别

提出 kNN-LM 和跨注意力技术两种方法的多模态检索，证明了其在语音识别任务上优于基于文本的检索方法，对多模态语言模型基准线具有最高水平的识别结果。

Jun, 2024

基于大型语言模型的知识导向视觉问答中的模态感知集成

基于知识的视觉问答（KVQA）对于利用外部知识，如知识图谱（KGs）来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法（MAIL），用于 KVQA，它巧妙地利用多模态知识进行图像理解和知识推理，并在两个基准数据集上的实验证明了 MAIL 的卓越性能。

Feb, 2024

多模态查询的端到端知识检索

本文介绍了一个新的数据集 ReMuQ，针对跨媒体检索的任务，提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`，并引入了一个新的预训练任务，实现了对多模态查询的知识检索，并在两个数据集上取得了优秀的检索效果。

Jun, 2023

Wiki-LLaVA: 分层的检索增强生成模型用于多模态语言模型

我们提出了一种名为 Wiki-LLaVA 的方法，通过一个分层检索流程，将多模态文档的外部知识源集成到 LLM 中，用作额外的上下文，从而增强了生成的对话的效果和准确性。我们在具有外部数据的视觉问答数据集上进行了大量实验，并证明了该方法的适用性。

Apr, 2024

面向知识密集任务的统一语言模型：利用外部语料库

该研究论文介绍了一种统一的语言模型，通过将生成检索、闭书生成和 RAG 有机地结合，利用外部语料库处理各种知识密集型任务。该模型通过引入不同机制实现了有效的检索和生成，并在广泛使用的 KILT 基准测试中展现了出色的性能。

Feb, 2024

大规模语言模型在多模态搜索中的应用

多模态搜索系统结合图像和文本，通过增强匹配能力、推理能力和上下文感知的查询解析和重写，提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上，我们引入了一种新颖的多模态搜索模型，并提出了结合大型语言模型的搜索界面，以实现与用户的对话式互动和上下文考虑的搜索体验的升级，为购物助手提供了类人交互和全面的搜索体验。

Apr, 2024

从知识图谱中学习为检索增强的大型语言模型规划

使用来自知识图谱的规划数据，我们介绍了一种增强大型语言模型在复杂问答任务中的性能的新框架，通过使用这些数据对 LLMs 进行微调，提高其规划能力，更好地处理涉及检索的复杂 QA 任务。我们的框架在多个数据集上进行评估，包括我们提出的新基准，突出了其有效性和知识图谱派生规划数据的好处。

Jun, 2024