Mar, 2024

LLM 中大规模评估结果的全面重新评估:多方面的统计方法

TL;DR通过应用 ANOVA、Tukey HSD 测试、GAMM 和聚类技术,本研究对 LLMs 进行了彻底重新审视,针对当前评估方法中的不足之处。我们的研究利用了大量的评估结果数据集,引入了全面的统计方法,为解析 LLM 性能数据提供了一个强大而透明的方法。与先前的研究结果相反,我们的结果挑战了关于新兴能力以及给定训练类型和架构在 LLMs 中的影响的假设。本研究对 LLM 的性能和潜力提供了一个细致入微的视角,通过提供简单可靠的方法来审查和重新评估 LLM 的性能数据。