Dec, 2022

使用单个 GPU 在一天内训练语言模型

TL;DR本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能,同时提供了一个经过修改的预训练流程,并提供证据表明即使在有限的计算环境下,性能也与大型计算环境下观察到的缩放定律密切相关。