EMNLPNov, 2023

Elo 揭示:语言模型评估的稳健性和最佳实践

TL;DR在自然语言处理 (NLP) 中,Elo 等级系统被用于评估大型语言模型 (LLMs) 的准确性和可靠性,然而其在评估具有恒定技能水平,如 LLMs 等实体方面的适用性仍然相对未被探索。本文研究了评估方法应遵循的两个基本公理:可靠性和传递性,并通过广泛的 Elo 行为评估,阐述了个体 Elo 计算的波动性,并深入探讨了 Elo 等级系统超参数变化的影响。我们发现这些公理并不总是得到满足,提出了当前 LLMs 的比较评估的可靠性问题。如果当前使用 Elo 得分来替代昂贵的 LLMs 比较,确保排名尽可能健壮是至关重要的。我们的研究结果根据这些公理为改进 LLMs 评估方法提供了具体指导,这意味着需要重新评估现有的比较方法。