ICMLFeb, 2020

训练大模型,压缩小模型:重新思考 Transformers 的高效训练与推断模型大小

TL;DR研究表明,即使较小的 Transformer 模型在每次迭代中执行更快,较宽且较深的模型在明显更少的步骤中收敛。此外,大型模型比小型模型更 robust,因此,高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性