GRAMMAR: 领域指定的检索增强语言模型的基于语境和模块化的评估

Apr, 2024

GRAMMAR: 领域指定的检索增强语言模型的基于语境和模块化的评估

GRAMMAR: Grounded and Modular Evaluation of Domain-Specific Retrieval-Augmented Language Models

Xinzhe Li, Ming Liu, Shang Gao

TL;DR评估检索增强生成 (Retrieval-augmented Generation, RAG) 系统面临独特的挑战，如领域特定查询及相应标准的匮乏、对故障案例原因的系统性诊断方法的缺乏等。为了解决这些问题，我们引入了 GRAMMAR (GRounded And Modular Methodology for Assessment of RAG) 评估框架，包括两个关键要素：1) 利用关系数据库和 LLMs 生成可伸缩的查询 - 答案对的数据生成过程，以增强调试功能；2) 区分知识缺失和鲁棒性的评估框架，能够识别有缺陷的模块。我们的实证结果突显了当前无参考评估方法的局限性以及 GRAMMAR 准确识别模型漏洞的可靠性。

Abstract

retrieval-augmented generation (RAG) systems have been actively studied and deployed across various industries to query on domain-specific knowledge base. However, evaluating these systems presents unique challenges due to the scarcity of domain-specific queries and corresponding groun

retrieval-augmented generation evaluation framework grammar knowledge gaps model vulnerabilities

发现论文，激发创造

DomainRAG: 用于评估领域特定的检索增强生成的中文基准

检验 Retrieval-Augmented Generation （RAG）在特定领域环境中的能力与效果，评估存在的限制并寻求改进的研究。

Jun, 2024

检索增强生成系统：自动数据集创建、评估和布尔代理设置

检索增强生成（RAG）系统在通过领域特定和时间敏感数据增强大型语言模型（LLM）输出方面非常受欢迎。本文提出了一种严格的数据集创建和评估工作流程，从而定量比较了不同的 RAG 策略，用于布尔代理 RAG 设置的开发和评估。我们在线发布了我们的代码和生成的数据集。

Feb, 2024

检索增强生成模型评估：一项调查

Retrieval-Augmented Generation (RAG) 系统的评估和分析框架（RGAR）提供了一种基于可测输出和已建立真实性来系统分析 RAG 系统基准的方法，并讨论了当前基准的局限性和进一步研究的潜在方向。

May, 2024

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

RAGAS: 用于检索增强生成的自动评估

我们介绍了 RAGAs（检索增强生成评估）框架，用于无参考评估检索增强生成（RAG）流程，并提出一套可以用来评估不同维度的指标，而无需依赖于人工标注的真值，这对于 RAG 体系结构的快速评估是至关重要的，尤其是考虑到 LLMs 的快速采用。

Sep, 2023

KG-RAG: 知识与创造之间的桥梁

该论文介绍了一种名为 KG-RAG（知识图谱 - 检索增强生成）的框架，通过将结构化的知识图谱与 LLMs 的功能集成，显著减少对 LLMs 潜在知识的依赖，从而提高 LLM 的知识能力。通过使用一种名为 CoE（Chain of Explorations）的算法，利用 LLMs 的推理能力在知识图谱中顺序地探索节点和关系，该方法较之前取得了显著减少虚构内容的结果，为发展处理知识密集型任务的智能系统提供了有希望的路径。

May, 2024

大型语言模型中的检索增强生成的开发与测试 -- 一份案例研究报告

大型语言模型（LLMs）在医疗应用中具有重要潜力，而检索增强生成（RAG）被认为是一种有前景的方法来定制 LLMs 中的领域知识。该研究通过开发和评估一个专门针对医疗保健领域、特别关注术前医学的 LLM-RAG 流程，验证了其可行性。

Jan, 2024

评估检索增强生成模型的答案质量：强大的 LLM 足够了

我们提出了一种全面评估检索增强生成（RAG）应用中答案质量的方法，使用 vRAG-Eval，这是一种新的评分系统，旨在评估正确性、完整性和诚实性。我们进一步将前述质量方面的评分转化为一个二进制分数，表示接受或拒绝的决策，反映了常用于聊天应用的直观 “赞” 或 “踩” 的手势。我们将 vRAG-Eval 应用于两个大型语言模型（LLM），评估由基本 RAG 应用生成的答案的质量。我们将这些评估与人类专家判断进行比较，并发现 GPT-4 的评估结果与人类专家的评判具有显著一致性，在接受或拒绝的决策上达成 83% 的一致。这项研究突出了 LLM 在封闭领域、封闭式问题设置中作为可靠评估者的潜力，特别是当人工评估需要大量资源时。

Jun, 2024

RQ-RAG: 学习改进用于检索增强生成的查询

学习改进查询以实现检索增强生成，通过加入外部相关文档，使模型具备显式重写、分解和消歧的能力，并在各种问题回答数据集中取得了优于现有方法的表现。

Mar, 2024