重新审视神经机器翻译中的检查点平均化

ACLOct, 2022

重新审视神经机器翻译中的检查点平均化

Revisiting Checkpoint Averaging for Neural Machine Translation

Yingbo Gao, Christian Herold, Zijian Yang, Hermann Ney

TL;DR在神经机器翻译中，采用 checkpoint 平均值来提高模型的性能，此方法计算简单，被广泛采用。本文通过实验，考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用，结果表明 checkpoint 平均值对于性能的提高是必要的，但随着收敛到最优模型的序列不断增加，模型的改善空间较小。

Abstract

checkpoint averaging is a simple and effective method to boost the performance of converged neural machine translation models. The calculation is cheap to perform and the fact that the translation improvement alm

checkpoint averaging neural machine translation model parameters weighted average gradient information

发现论文，激发创造

强健的跨语言转移：通过模型检查点平均化实现免费午餐

本文探讨了在跨语种任务上，fine-tuning 的模型在模型点上的性能评估并不符合 zero-shot 和 few-shot 学习的前提；并提出了一种更为稳健的模型检查点平均方法，特别是在没有标注的目标语言数据的情况下，该方法在多个任务和语种下表现出可靠的性能。

May, 2023

理解早期权重平均对大型语言模型训练的有效性

通过运用检查点平均化方法来改进大型语言模型（LLMs）的质量，在不增加额外培训或推理成本的前提下，缩短训练时间并提高测试和零样本泛化能力。

Jun, 2023

自然梯度和参数平均化并行训练深度神经网络

本文主要介绍了 Kaldi 语音识别工具包中使用的神经网络训练框架。该框架可用于使用多个带有 GPU 的计算机或多核计算机训练大量训练数据的 DNNs。神经网络参数的定期平均化和分发以及 NG-SGD 的近似高效实现似乎能够使训练方法有效地工作，同时还可以大大提高单个机器上 SGD 的收敛性。

Oct, 2014

加权平均法：一种简单而有效的方法，用于克服自动语音识别中的灾难性遗忘

本文提出了一种称之为权值平均的方法，可以有效解决训练好的 ASR 模型遗忘旧任务的问题，并在单语和多语 ASR 上实现了高性能。

Oct, 2022

并行 SGD：何时使用平均有帮助？

研究了多个工作者独立运行 SGD 并定期平均模型的常见但未被充分理解的做法，探讨了模型平均作为方差减少机制的两种方式，并说明了平均频率对收敛的影响，对于凸目标函数，频繁平均的好处依赖于梯度方差包络，在非凸目标函数中，该好处取决于多个全局最优点的存在。在合成数据和实际数据上进行了多核实验以补充研究结果。

Jun, 2016

从单个训练过程中的检查点集成：集成方法

本文介绍了一种名为 Checkpoint Ensembles 的技术，它能够在单个训练过程中生成集成模型，使用此技术可以解决神经网络样本数据过小、采样噪声问题导致的训练数据误差。该方法通过检查点 ensemble 的方式融合了 validation set 和 ensemble models，实验证明 Checkpoint Ensembles 的表现优于其他方法。

Oct, 2017

通过对每个时期末的 k 个最新检查点的权重进行平均，可加速图像和自然语言模型的训练，并减少大量 GPU 时间，从而实现更快的收敛。

Sep, 2022

一对所有 & 所有对一：使用模型平均绕过超参数调整进行跨语言迁移

基于不同运行模型的累积逐渐平均，提升零样本跨语言转移（ZS-XLT）性能，与目标语言验证性能基于模型选择有密切相关。

Oct, 2023

ApproBiVT: 使用近似的偏差 - 方差折衷指导早停和检查点平均的先导 ASR 模型更好地泛化

在这篇论文中，我们从偏差和方差的权衡角度重新考虑并更新了早停和检查点平均值的方法，使用训练损失和验证损失作为偏差和方差的近似代理，并在高级 ASR 模型上验证时，我们的方法在 AISHELL-1 和 AISHELL-2 上分别降低了 2.5%-3.7% 和 3.1%-4.6% 的 CER。

Aug, 2023

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015