Jun, 2024

SEAM:多文档任务的随机基准

TL;DR评估大语言模型在多文档任务上的能力的一个综合性基准 (SEAM),通过重复评估和随机因素的抽样,揭示出静态基准无法观察到的潜在统计趋势,推动多文档任务的一致且有意义的评估。