May, 2023

语言缩水了:缩减规模后的语言模型行为

TL;DR本文研究小规模的语言模型中pre-training效果的影响,发现masked language modeling对于1.25M及以上规模的模型具有优化效果,并建立了pre-training perplexity和下游任务(GLUE benchmark)表现的强关联性。同时,研究了downscaling effects,并且观察到FLOPs小于$2.2×10^{15}$时,MLM loss并不随着计算成本(FLOPs)的降低而平滑缩小,增加层数并不总是有助于提高下游表现。