Apr, 2021

如何用学术预算训练 BERT

TL;DR本文描述了一种通过软件优化、设计选择和超参数调整,在低端深度学习服务器上预训练掩蔽语言模型的方法,并证明了产生的模型在 GLUE 任务中具有与 BERT-base 相当的竞争力,预训练成本仅为原始费用的一小部分。