BriefGPT.xyz
Ask
alpha
关键词
pretraining steps
搜索结果 - 1
迷惘于迷惘:基于困惑度的小参考模型数据修剪
通过研究发现,对大规模文本数据集进行小型语言模型基于困惑度的修剪,可以显著提高后续任务的性能,并且能够在过度训练和数据受限制的情况下获得下游性能增益。
PDF
a month ago
Prev
Next