SIGIRJun, 2024

评估 RAG-Fusion 与 RAGElo:自动基于 Elo 的框架

TL;DR针对检索增强生成(RAG)问答系统的自动化评估中存在的领域特定知识虚构问题和公司内部任务缺乏标准基准的挑战,我们提出了一个综合评估框架,利用大型语言模型(LLM)生成基于真实用户查询和领域内文档的大规模合成查询数据集,使用 LLM 作为评判者对检索的文档和答案进行评级,评估答案的质量,并使用 RAGElo 的自动 Elo 竞赛对不同变体的检索增强生成(RAG)代理进行排名。