Oct, 2021

大规模预训练的极限探索

TL;DR通过调整数据规模、模型大小和训练时间,提高预训练的准确性可以有利于大多数下游任务的表现,但是当上游准确度提高时,下游任务的表现会饱和,并且与上游和下游任务的性能呈非线性关系,因此需要对下游性能建立一个模型以反映这种饱和现象。