RAVEN：多任务检索增强视觉 - 语言学习

Jun, 2024

RAVEN：多任务检索增强视觉 - 语言学习

RAVEN: Multitask Retrieval Augmented Vision-Language Learning

Varun Nagaraj Rao, Siddharth Choudhary, Aditya Deshpande, Ravi Kumar Satzoda, Srikar Appalaraju

TL;DR该论文介绍了 RAVEN，一个多任务的检索增强视觉语言模型框架，通过有效的任务特定微调，无需额外的检索特定参数，该模型获得了在多个任务中都有效的检索能力，对图像字幕和 VQA 任务的广泛实验结果表明，与非检索基准线相比，在 MSCOCO 上提高了 + 1 CIDEr，在 NoCaps 上提高了 + 4 CIDEr，在特定的 VQA 问题类型上提高了近 3％的准确率，这表明了将 RAG 方法应用于视觉语言模型的有效性，标志着朝着更高效和可访问的多模态学习迈进。

Abstract

The scaling of large language models to encode all the world's knowledge in model parameters is unsustainable and has exacerbated resource barriers. →

scaling language models retrieval-augmented generation vision-language models raven

发现论文，激发创造

检索遇见推理：即使高中教科书知识也有益于多模态推理

通过引入一种名为 RMR 的新型多模式 RAG 框架，本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力，并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能，凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。

May, 2024

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

知识密集检索增强生成中的多视图洞见

该论文介绍了一种针对知识密集领域的新型多视图 RAG 框架 (MVRAG)，利用多个领域视角的意图感知查询重写来增强检索精度，从而提高最终推理的有效性。在法律和医学案例检索上进行的实验证明，我们的框架在召回率和精确率方面取得了显著改善。我们的多角度检索方法释放了多视图信息增强 RAG 任务的潜力，加速了 LLMs 在知识密集领域的进一步应用。

Apr, 2024

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

基于检索增强生成的大型语言模型的基准测试

通过对 Retrieval-Augmented Generation 对大型语言模型的影响进行系统调查和评估，本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战，表明在将 RAG 有效应用于大型语言模型方面仍有很长的路要走。

Sep, 2023

M-RAG: 通过多个分区的检索增强生成加强大型语言模型性能

通过引入多个分区范例（称为 M-RAG），每个数据库分区作为 RAG 执行的基本单位，本文在 Retrieval-Augmented Generation（RAG）的基础上提出了一个新的框架，利用多智能体强化学习优化不同的语言生成任务。通过在七个数据集上进行的综合实验，涵盖三个语言生成任务和三种不同的语言模型架构，我们证实了 M-RAG 相对于各种基准方法的持续优势，分别在文本摘要、机器翻译和对话生成方面取得了 11％、8％和 12％的改进。

May, 2024

一个令牌可以帮助！学习可扩展和可插拔的虚拟令牌用于增强检索的大型语言模型

通过学习可扩展且可插拔的虚拟标记，我们的方法在保持大型语言模型的原始参数的基础上，仅对这些可插入标记的嵌入进行微调，从而提高了大型语言模型的性能并保留了其普遍的生成能力。

May, 2024

MuRAG: 图像和文本开放式问答的多模式检索增强生成器

MuRAG 是第一个多模态检索增强变压器，利用外部非参数多模态存储器来增强语言生成，并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性，优于现有模型 10-20％绝对值。

Oct, 2022

关于 RAG 遇见 LLM 的调研：走向检索增强的大型语言模型

检视了检索增强型大型语言模型（RA-LLMs）的现有研究，涵盖体系结构、训练策略和应用三个主要技术视角，并介绍了此类模型的基础知识和最新进展，以及它们为大型语言模型（LLMs）带来的实际意义和应用领域的挑战和能力，最后讨论了当前的局限性和未来研究的几个有前途的方向。

May, 2024

用于医学教育中大规模非结构化文本数据的检索增强生成和代表性向量摘要化

本文讨论了检索增强生成模型在医学教育领域的应用，并提出了一种使用代表向量对大规模非结构化文本数据进行抽取和生成式摘要的方法。

Aug, 2023