Apr, 2024

GRAMMAR: 领域指定的检索增强语言模型的基于语境和模块化的评估

TL;DR评估检索增强生成 (Retrieval-augmented Generation, RAG) 系统面临独特的挑战,如领域特定查询及相应标准的匮乏、对故障案例原因的系统性诊断方法的缺乏等。为了解决这些问题,我们引入了 GRAMMAR (GRounded And Modular Methodology for Assessment of RAG) 评估框架,包括两个关键要素:1) 利用关系数据库和 LLMs 生成可伸缩的查询 - 答案对的数据生成过程,以增强调试功能;2) 区分知识缺失和鲁棒性的评估框架,能够识别有缺陷的模块。我们的实证结果突显了当前无参考评估方法的局限性以及 GRAMMAR 准确识别模型漏洞的可靠性。