May, 2023

预训练过程中的逆比例缩放现象

TL;DR研究对语言建模任务进行训练过程中,随着模型参数规模的增加,Pythia 模型在两项特定任务上的表现会下降,尽管这些模型总体呈现正的标度。这突显了测试模型在所有相关基准上的性能的重要性,即使它们的整体表现有所提升。