Apr, 2024

小型语言模型性能下降的原因:通过 Softmax Engular 点探究语言模型饱和现象

TL;DR在语言建模中,研究人员发现较小的模型在训练后期可能会出现饱和现象,其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配,由此导致线性预测头的性能下降。实验结果表明,隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示,从而导致评估性能降低。