Jun, 2024

测评基准中方差的量化

TL;DR通过定义和衡量一系列度量评估基准中的方差,包括初始化中的随机性和训练过程中的单调性,本研究提供了对各种方差度量的实证估计,并为从业者提供了考虑和建议。研究发现,简单的改变策略任务(如 MMLU)为较小规模(约 7B)的模型降低了方差,而受人类测试文献启发的更复杂方法(如项目分析和项目反应理论)在降低方差方面效果不明显。总体而言,本研究通过对评估基准中的方差提供了洞察,提出了降低方差的语言模型特定技术,并鼓励从业者在比较模型时谨慎考虑方差。