ICMLFeb, 2020
训练大模型,压缩小模型:重新思考 Transformers 的高效训练与推断模型大小
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers
Zhuohan Li, Eric Wallace, Sheng Shen, Kevin Lin, Kurt Keutzer...
TL;DR研究表明,即使较小的 Transformer 模型在每次迭代中执行更快,较宽且较深的模型在明显更少的步骤中收敛。此外,大型模型比小型模型更 robust,因此,高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性