Jun, 2024

同时评估 LLMs 中的多个问题:评估 LLM 能力的新范式

TL;DR当前的 LLM 评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究 LLM 的多问题处理能力的额外方法。我们在这方面进行了系统研究,通过全面考察 4 个相关类型的任务上的 7 个 LLM,这些任务是基于 6 个分类基准构建的。我们发现 LLM 具备良好的多问题解决能力:它们在多问题任务上的表现通常接近或与单问题任务一样好。此外,与常见预期相反,它们在长输入下通常不会出现位置偏差。这使得多问题提示成为一种简单且成本效益高的实用方法。然而,我们的结果还强烈表明 LLM 缺乏真正的理解:在两个索引选择任务中,它们的表现显著不如在多问题任务中,尽管它们在一般情况下确实能够进行索引选择。