NoMIRACL: 稳健多语言检索增强生成中的不了解时知晓

Dec, 2023

NoMIRACL: 稳健多语言检索增强生成中的不了解时知晓

NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation

Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo...

TL;DR利用外部知识源降低大型语言模型产生的事实幻觉，检索增强生成（RAG）通过对不同语言家族的全面评估，建立 NoMIRACL 数据集来评估 RAG 中 LLM 的鲁棒性。

Abstract

retrieval-augmented generation (RAG) grounds large language model (LLM) output by leveraging external knowledge sources to reduce factual hallucinations. However, prior works lack a comprehensive evaluation of different language families, making it challenging to evaluate →

retrieval-augmented generation llm robustness nomiracl dataset hallucination rate error rate

发现论文，激发创造

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

扯不清的边界：检索增强的聊天机器人的双刃剑

揭示了大型语言模型存在的幻觉问题，通过整合外部知识与提示信息，检验了检索增强生成（RAG）的能力，实验证明 RAG 在某些情况下能提高准确性，但仍然可能受到与模型预训练理解相抵触的提示的误导，研究结果强调了幻觉的复杂性以及确保大型语言模型在实际应用中可靠性的更强大解决方案的必要性，并提供了 RAG 部署的实用建议和对更值得信赖的大型语言模型开发的影响。

Mar, 2024

基于检索增强生成的大型语言模型的基准测试

通过对 Retrieval-Augmented Generation 对大型语言模型的影响进行系统调查和评估，本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战，表明在将 RAG 有效应用于大型语言模型方面仍有很长的路要走。

Sep, 2023

利用 RAG 提高 LLM 事实准确性以应对幻觉：私有知识库中领域特定查询的案例研究

我们提出了一种朝着利用检索增强生成（RAG）改进大规模语言模型（LLMs）对私人知识库相关的领域特定和时间敏感查询的事实准确性的端到端系统设计。我们的系统将 RAG 流水线与上游数据集处理和下游性能评估集成在一起。通过使用源自 CMU 广泛资源并以教师模型进行注释的策划数据集对模型进行微调，解决了 LLM 产生的幻觉挑战。我们的实验表明该系统在生成更准确的领域特定和时间敏感查询答案方面的有效性。结果还揭示了使用规模较小和偏斜的数据集进行微调 LLM 的限制。这项研究突出了 RAG 系统在增强 LLMs 表现方面的潜力在知识密集型任务中。我们的代码和模型可在 Github 上找到。

Mar, 2024

RAGTruth: 开发可信赖的检索增强语言模型的幻觉语料库

本文介绍了用于分析不同领域和任务中基于检索增强生成（RAG）大型语言模型（LLMs）中词级幻觉的 RAGTruth，这是一个用于测量幻觉程度的基准数据集，并评估了多种现有的幻觉检测方法，在幻觉检测方面，通过使用高质量的数据集如 RAGTruth，可以对相对较小的 LLM 进行微调，并实现与使用 GPT-4 等最先进的大型语言模型的基于提示的方法相媲美的性能水平。

Dec, 2023

BadRAG：大型语言模型检测检索增强生成中的漏洞

通过结合检索式方法和生成模型，提出了 TrojRAG 来识别检索部分（RAG 数据库）的漏洞和攻击，并间接攻击生成部分（LLMs），通过中毒定制内容来实现检索后门和语义操纵，这些攻击可以包括 RAG 的拒绝服务攻击和以触发器为条件的生成 LLMs 的语义操纵。

Jun, 2024

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

使用自适应对抗训练提升检索增强语言模型的抗噪能力

这项研究将大型语言模型与检索增强生成相结合，提出了一种名为 RAAT 的新的检索增强自适应对抗训练方法，通过适应性对抗训练动态调整模型的训练过程以应对检索噪声，并通过多任务学习确保模型内部识别噪声上下文的能力。实验证明，使用 RAAT 训练的 LLaMA-2 7B 模型在不同噪声条件下显著提高了 F1 和 EM 分数。

May, 2024

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

RAG 模型的忠实程度：量化 RAG 与 LLMs 内部先验之间的博弈

通过系统分析语言模型的内部知识和检索信息间的冲突来回答疑问，我们发现正确的检索信息可以修复大多数模型错误，但当参考文档中存在错误信息时，模型的内部知识对该错误信息存在较大的依赖性。这些结果突显了模型的先验知识与参考文档中呈现的信息之间的潜在紧张关系。

Apr, 2024