Feb, 2024

自动归因评估的难度有多大?

TL;DR通过提供引用的证据,现代生成式搜索引擎增强了大型语言模型(LLM)响应的可靠性。为了弥补缺乏这些方法的标准化基准的差距,我们提出了 AttributionBench,这是一个由各种现有归因数据集编制的综合基准。我们在 AttributionBench 上进行了大量实验,揭示了即使对于最先进的 LLM 也存在自动归因评估的挑战。