REVEAL：基于检索增强的多源多模态知识记忆的视觉语言预训练

Dec, 2022

REVEAL：基于检索增强的多源多模态知识记忆的视觉语言预训练

REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory

Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang...

TL;DR本文提出了一种端到端检索增强的视觉语言模型（REVEAL），它可以将世界知识编码到大规模存储器中，并从中检索以回答知识密集型查询。

Abstract

In this paper, we propose an end-to-end retrieval-augmented visual language Model (reveal) that learns to encode world knowledge into a la

end-to-end retrieval-augmented visual language reveal memory multimodal world knowledge

发现论文，激发创造

检索式知识增强视觉语言预训练

该篇论文提出了一种基于知识图谱的视觉语言预训练模型 (REAVL)，能够检索多模态数据中的世界知识，并结合多模态数据和知识来完成预训练，以提高视觉语言理解和多模态实体链接任务的性能。

Apr, 2023

REALM: 检索增强语言模型预训练

本文介绍了一种利用潜在知识检索器扩充语言模型预训练，并将其应用于开放域问答任务中，实现了良好的效果和可解释性。

Feb, 2020

多模态查询的端到端知识检索

本文介绍了一个新的数据集 ReMuQ，针对跨媒体检索的任务，提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`，并引入了一个新的预训练任务，实现了对多模态查询的知识检索，并在两个数据集上取得了优秀的检索效果。

Jun, 2023

利用大型语言模型的生成式多模态知识检索

我们提出了一种创新的端到端生成框架，用于多模态知识检索，通过利用大型语言模型 (LLMs) 作为虚拟知识库，使用对象感知的前缀调优技术来指导多粒度视觉学习，将多粒度视觉特征对齐到 LLM 的文本特征空间中，通过统一格式的指令数据构建模型训练，最后，我们提出了知识引导的生成策略，在解码步骤中施加先验约束，促进独特知识线索的生成，在三个基准测试中实验证明，与强基线方法相比，在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。

Jan, 2024

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022

RAVEN：多任务检索增强视觉 - 语言学习

该论文介绍了 RAVEN，一个多任务的检索增强视觉语言模型框架，通过有效的任务特定微调，无需额外的检索特定参数，该模型获得了在多个任务中都有效的检索能力，对图像字幕和 VQA 任务的广泛实验结果表明，与非检索基准线相比，在 MSCOCO 上提高了 + 1 CIDEr，在 NoCaps 上提高了 + 4 CIDEr，在特定的 VQA 问题类型上提高了近 3％的准确率，这表明了将 RAG 方法应用于视觉语言模型的有效性，标志着朝着更高效和可访问的多模态学习迈进。

Jun, 2024

生成跨模态检索：以检索和超越为目的的多模态语言模型中的图像记忆

构建在生成式语言模型基础上的多模态大型语言模型（MLLMs）拥有记忆和重新召回图像能力，介绍了一种基于生成式跨模态检索框架的方法，通过将图像存储在 MLLMs 中以实现记忆功能，并有效地进行跨模态检索。

Feb, 2024

面向生成视觉问答的多模态提示检索

提出了一种结合多模态提示检索和生成模型的方法，该方法可以在医学领域的视觉问题回答任务中比非检索方法提高高达 30％的精度。

Jun, 2023

利用 QA-Memory 增强预训练语言模型以进行开放域问答

本文提出了一种以问答对为基础的编码 - 解码模型，通过该模型的预训练策略，能够在单跳及多跳问题上达到强大性能，并进一步提高了对模型的解释和控制能力，缩小了与段落检索系统之间的性能差距。

Apr, 2022

检索增强转换器用于图像字幕生成

本论文中，我们研究了一种基于 kNN 记忆的图像字幕生成方法，其中可以从外部语料库中检索知识来辅助生成过程。通过在视觉相似性、差分编码器和 kNN 增强的注意力层之间结合知识检索器来预测基于上下文和从外部内存检索的文本的令牌。在 COCO 数据集上进行的实验结果表明，采用显式的外部存储器可以帮助生成过程并提高字幕质量。我们的工作为更大规模的图像字幕生成模型的改进开辟了新的途径。

Jul, 2022