最新权重平均化技术:缩短 ImageNet 和 BERT 的训练时间,切莫浪费我的时间!
采用大批量数据并行同步 SGD 的 LARS 算法,我们在 2048 个 KNL 上完成了 90 个周期 ResNet-50 的 ImageNet 训练,仅需 20 分钟,同时达到 74.9% 的测试精度。
Sep, 2017
在神经机器翻译中,采用 checkpoint 平均值来提高模型的性能,此方法计算简单,被广泛采用。本文通过实验,考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用,结果表明 checkpoint 平均值对于性能的提高是必要的,但随着收敛到最优模型的序列不断增加,模型的改善空间较小。
Oct, 2022
提出了一种称为 WEAVER 的简单且高效的后处理方法,该方法将旧知识融入新模型中,从而减少灾难性遗忘,并且在序列方式下,应用 WEAVER 导致与一次性对所有数据进行联合训练相似的单词嵌入分布,同时具有更高的计算效率。
Feb, 2022
通过采用降低精度和大批量培训,结合仔细的调整和实施,可以在单个 8-GPU 计算机上加速训练近 5 倍,从而达到在大型基准数据集上达到最先进性能的状态,如 WMT'14 英德翻译等任务。
Jun, 2018
本文提出了一种称之为权值平均的方法,可以有效解决训练好的 ASR 模型遗忘旧任务的问题,并在单语和多语 ASR 上实现了高性能。
Oct, 2022
本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案,最终展示了高达 90%的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术,使得在相同的固定训练预算下,使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5%的准确率,类似于 ResNet-152。
Nov, 2017
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018
通过优化方法,我们使用 ABCI 集群上的 2048 个 GPU,在 74.7 秒内实现了高达 1.73 百万张图像 / 秒的训练吞吐量和 75.08%的 top-1 验证准确性,解决了分布式深度学习中大规模集群高伸缩性和高准确性的挑战。
Mar, 2019
本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB,主要用于加速深度神经网络训练。在各种任务(如 BERT 和 ResNet-50)中,LAMB 的表现优于现有算法,特别是在 BERT 训练中,我们的优化器能够实现 32868 的大批量大小,将训练时间从 3 天缩短至 76 分钟。
Apr, 2019