KDDJun, 2024
R-Eval: 评估检索增强大型语言模型的领域知识的统一工具包
R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models
Shangqing Tu, Yuanchun Wang, Jifan Yu, Yuyang Xie, Yaran Shi...
TL;DR我们提出了 R-Eval 工具包,它是一个 Python 工具包,旨在简化对不同 RAG 工作流与 LLMs 的评估,通过在特定领域上支持流行的内置 RAG 工作流,并允许将定制化测试数据结合在一起。我们评估了 21 个 RALLMs 在三个任务级别和两个代表性领域上的表现,揭示了在不同任务和领域中 RALLMs 的效果差异的重要性,强调了在选择 RAG 工作流和 LLM 组合时考虑任务和领域要求的重要性。