Oct, 2024

MIRAGE-Bench:自动化多语言基准竞技场用于增强检索生成系统

TL;DR本研究针对传统检索增强生成(RAG)基准评估中缺乏有效评判标准的问题,提出了一种新颖的方法:通过训练学习排序模型作为“替代”评委,结合RAG评估启发式特征,构建出MIRAGE-Bench,一个标准化的多语言RAG基准。该基准通过评估多达19种多语言关注的模型,显示出高相关性(Kendall Tau ($\tau$) = 0.909),对多语言RAG的研究具有重要影响。