Sep, 2022

最新权重平均化技术:缩短 ImageNet 和 BERT 的训练时间,切莫浪费我的时间!

TL;DR通过对每个时期末的 k 个最新检查点的权重进行平均,可加速图像和自然语言模型的训练,并减少大量 GPU 时间,从而实现更快的收敛。