BriefGPT.xyz
大模型
Ask
alpha
关键词
evaluation performance
搜索结果 - 1
小型语言模型性能下降的原因:通过 Softmax Engular 点探究语言模型饱和现象
在语言建模中,研究人员发现较小的模型在训练后期可能会出现饱和现象,其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配,由此导致线性预测头的性能下降。实验结果表明,隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示
→
PDF
3 months ago
Prev
Next