最新权重平均化技术：缩短 ImageNet 和 BERT 的训练时间，切莫浪费我的时间！

Sep, 2022

最新权重平均化技术：缩短 ImageNet 和 BERT 的训练时间，切莫浪费我的时间！

Stop Wasting My Time! Saving Days of ImageNet and BERT Training with Latest Weight Averaging

Jean Kaddour

TL;DR通过对每个时期末的 k 个最新检查点的权重进行平均，可加速图像和自然语言模型的训练，并减少大量 GPU 时间，从而实现更快的收敛。

Abstract

training vision or language models on large datasets can take days, if not weeks. We show that averaging the weights of the k latest

vision language training checkpoints convergence

发现论文，激发创造

理解早期权重平均对大型语言模型训练的有效性

通过运用检查点平均化方法来改进大型语言模型（LLMs）的质量，在不增加额外培训或推理成本的前提下，缩短训练时间并提高测试和零样本泛化能力。

Jun, 2023

分钟级 ImageNet 训练

采用大批量数据并行同步 SGD 的 LARS 算法，我们在 2048 个 KNL 上完成了 90 个周期 ResNet-50 的 ImageNet 训练，仅需 20 分钟，同时达到 74.9% 的测试精度。

Sep, 2017

重新审视神经机器翻译中的检查点平均化

在神经机器翻译中，采用 checkpoint 平均值来提高模型的性能，此方法计算简单，被广泛采用。本文通过实验，考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用，结果表明 checkpoint 平均值对于性能的提高是必要的，但随着收敛到最优模型的序列不断增加，模型的改善空间较小。

Oct, 2022

BERT WEAVER: 采用加权平均实现基于 Transformer 的模型的生命周期学习

提出了一种称为 WEAVER 的简单且高效的后处理方法，该方法将旧知识融入新模型中，从而减少灾难性遗忘，并且在序列方式下，应用 WEAVER 导致与一次性对所有数据进行联合训练相似的单词嵌入分布，同时具有更高的计算效率。

Feb, 2022

神经机器翻译的扩展

通过采用降低精度和大批量培训，结合仔细的调整和实施，可以在单个 8-GPU 计算机上加速训练近 5 倍，从而达到在大型基准数据集上达到最先进性能的状态，如 WMT'14 英德翻译等任务。

Jun, 2018

加权平均法：一种简单而有效的方法，用于克服自动语音识别中的灾难性遗忘

本文提出了一种称之为权值平均的方法，可以有效解决训练好的 ASR 模型遗忘旧任务的问题，并在单语和多语 ASR 上实现了高性能。

Oct, 2022

大型小批量 SGD 扩展：改进准确性和减少训练时间的 ImageNet-1K 上残差网络训练

本文探讨了在 petaflop 级超级计算机上训练 ResNet-50 的挑战和新解决方案，最终展示了高达 90％的扩展效率和 28 分钟的训练时间。同时介绍了 Collapsed Ensemble (CE) 技术，使得在相同的固定训练预算下，使用未修改的 ResNet-50 拓扑结构可以获得高达 77.5％的准确率，类似于 ResNet-152。

Nov, 2017

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018

又一种加速的 SGD: 在 ImageNet 上以 74.7 秒的速度训练 ResNet-50

通过优化方法，我们使用 ABCI 集群上的 2048 个 GPU，在 74.7 秒内实现了高达 1.73 百万张图像 / 秒的训练吞吐量和 75.08％的 top-1 验证准确性，解决了分布式深度学习中大规模集群高伸缩性和高准确性的挑战。

Mar, 2019

深度学习大批量优化：76 分钟训练 BERT

本文提出了一个新的基于分层自适应学习率的大批量优化技术 ——LAMB，主要用于加速深度神经网络训练。在各种任务（如 BERT 和 ResNet-50）中，LAMB 的表现优于现有算法，特别是在 BERT 训练中，我们的优化器能够实现 32868 的大批量大小，将训练时间从 3 天缩短至 76 分钟。

Apr, 2019