Feb, 2024

当基准成为目标:揭示大型语言模型排行榜的敏感性

TL;DR利用基准排名构建的大型语言模型(LLM)排行榜经常被用来指导实践者选择模型,但我们展示了这是一个(潜在的昂贵)错误。在现有的排行榜中,LLM 的相对性能对(通常微小的)细节非常敏感。我们通过对多个选择题基准进行实验,比如改变选项的顺序或答案选择方法,我们发现这些微小扰动会导致排名变化高达 8 个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议,包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险,并规划了更健壮的评估方案的路径。