R-Eval: 评估检索增强大型语言模型的领域知识的统一工具包

KDDJun, 2024

R-Eval: 评估检索增强大型语言模型的领域知识的统一工具包

R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models

Shangqing Tu, Yuanchun Wang, Jifan Yu, Yuyang Xie, Yaran Shi...

TL;DR我们提出了 R-Eval 工具包，它是一个 Python 工具包，旨在简化对不同 RAG 工作流与 LLMs 的评估，通过在特定领域上支持流行的内置 RAG 工作流，并允许将定制化测试数据结合在一起。我们评估了 21 个 RALLMs 在三个任务级别和两个代表性领域上的表现，揭示了在不同任务和领域中 RALLMs 的效果差异的重要性，强调了在选择 RAG 工作流和 LLM 组合时考虑任务和领域要求的重要性。

Abstract

large language models have achieved remarkable success on general NLP tasks, but they may fall short for domain-specific problems. Recently, various Retrieval-Augmented large language models (→

large language models retrieval-augmented large language models r-eval toolkit evaluation rallms

发现论文，激发创造

RaLLe: 发展和评估检索增强的大型语言模型的框架

R-LLMs improve factual question-answering by combining pre-trained large language models with retrieval systems; RaLLe is an open-source framework that facilitates the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks, enhancing performance and accuracy.

Aug, 2023

DomainRAG: 用于评估领域特定的检索增强生成的中文基准

检验 Retrieval-Augmented Generation （RAG）在特定领域环境中的能力与效果，评估存在的限制并寻求改进的研究。

Jun, 2024

基于 LLM 的问答系统中检索组件的评估

评估大规模语言模型在问答系统中的检索组件性能的基线方法。

Jun, 2024

评估检索增强生成模型的答案质量：强大的 LLM 足够了

我们提出了一种全面评估检索增强生成（RAG）应用中答案质量的方法，使用 vRAG-Eval，这是一种新的评分系统，旨在评估正确性、完整性和诚实性。我们进一步将前述质量方面的评分转化为一个二进制分数，表示接受或拒绝的决策，反映了常用于聊天应用的直观 “赞” 或 “踩” 的手势。我们将 vRAG-Eval 应用于两个大型语言模型（LLM），评估由基本 RAG 应用生成的答案的质量。我们将这些评估与人类专家判断进行比较，并发现 GPT-4 的评估结果与人类专家的评判具有显著一致性，在接受或拒绝的决策上达成 83% 的一致。这项研究突出了 LLM 在封闭领域、封闭式问题设置中作为可靠评估者的潜力，特别是当人工评估需要大量资源时。

Jun, 2024

在生物医学 NLP 中对检索增强的大型语言模型进行基准测试：应用、稳健性和自我意识

本文通过系统调查研究，评估了检索增强型大型语言模型在 5 个不同的生物医学任务（三元组抽取、链接预测、分类、问题回答和自然语言推理）中的影响，并在医学领域建立了四个不同的测试组，测试了三个代表性的大型语言模型与三个不同的检索器在 9 个数据集上的性能。

May, 2024

GRAMMAR: 领域指定的检索增强语言模型的基于语境和模块化的评估

评估检索增强生成 (Retrieval-augmented Generation, RAG) 系统面临独特的挑战，如领域特定查询及相应标准的匮乏、对故障案例原因的系统性诊断方法的缺乏等。为了解决这些问题，我们引入了 GRAMMAR (GRounded And Modular Methodology for Assessment of RAG) 评估框架，包括两个关键要素：1) 利用关系数据库和 LLMs 生成可伸缩的查询 - 答案对的数据生成过程，以增强调试功能；2) 区分知识缺失和鲁棒性的评估框架，能够识别有缺陷的模块。我们的实证结果突显了当前无参考评估方法的局限性以及 GRAMMAR 准确识别模型漏洞的可靠性。

Apr, 2024

工具呼叫：通过检索增强大型语言模型提升药物咨询

基于检索增强生成（RAG）的大规模语言模型（LLMs）在医学领域的知识密集型任务中表现出显著的性能提升，着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题，并提出了 Distill-Retrieve-Read 框架用于关键字搜索，实验结果证明了该框架在证据检索准确性方面的优势。

Apr, 2024

RRAML: 强化检索增强机器学习

通过提出一种名为增强检索增强机器学习（RRAML）的新型框架，将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合，有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。

Jul, 2023

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

什么是最好的模型？用于大型语言模型的应用驱动评估

通过构建一个应用驱动的评估基准，我们提供了一种选择最佳模型的方法，并推动其应用和发展。

Jun, 2024