KDDJun, 2024

R-Eval: 评估检索增强大型语言模型的领域知识的统一工具包

TL;DR我们提出了 R-Eval 工具包,它是一个 Python 工具包,旨在简化对不同 RAG 工作流与 LLMs 的评估,通过在特定领域上支持流行的内置 RAG 工作流,并允许将定制化测试数据结合在一起。我们评估了 21 个 RALLMs 在三个任务级别和两个代表性领域上的表现,揭示了在不同任务和领域中 RALLMs 的效果差异的重要性,强调了在选择 RAG 工作流和 LLM 组合时考虑任务和领域要求的重要性。