Sep, 2021

高效扩展:基于预训练和微调的Transformer技术洞见

TL;DR本文提出了来自于预训练和微调Transformer的缩放见解,并展示了改进的缩放协议,使得重新设计的模型在downstream fine-tuning方面具有相似的质量,同时参数数量减少了50%,训练速度比广泛采用的T5-base模型快了40%。