ICMLMay, 2024

使用任务特定的考试生成自动评估检索增强的语言模型

TL;DR我们提出了一种新的方法来衡量检索增强的大型语言模型(RAG)的任务特定准确性。通过对与任务相关的文档语料库基于多项选择问题评分的自动生成合成考试来进行评估。我们的方法是自动化、成本高效、可解释和稳健的选择 RAG 系统的最佳组件的策略。我们利用项目反应理论(IRT)估计考试的质量和信息量,以提高任务特定准确性。我们在四个基于 Arxiv 摘要、StackExchange 问题、AWS DevOps 故障排除指南和 SEC 文件的新型开放问答任务上演示了我们的方法。此外,我们的实验揭示了影响 RAG 性能的更一般的因素,如大小、检索机制、提示和微调。最重要的是,我们的研究结果表明,选择正确的检索算法通常比仅仅使用更大的语言模型能够带来更大的性能收益。