Apr, 2024

检查 LLM 评估对基准分布假设的鲁棒性

TL;DR基准测试作为评估大型语言模型(LLMs)的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设,即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立;相反,我们认为感兴趣的分布因具体用例而异。我们发现(1)模型在测试提示中的性能相关性是非随机的,(2)考虑到测试提示之间的相关性,可以改变主要基准测试中的模型排名,(3)导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。