理解早期权重平均对大型语言模型训练的有效性

Jun, 2023

理解早期权重平均对大型语言模型训练的有效性

Understanding the Effectiveness of Early Weight Averaging for Training Large Language Models

PDF

Sunny Sanyal, Jean Kaddour, Abhishek Kumar, Sujay Sanghavi

TL;DR通过运用检查点平均化方法来改进大型语言模型（LLMs）的质量，在不增加额外培训或推理成本的前提下，缩短训练时间并提高测试和零样本泛化能力。

Abstract

training llms is expensive, and recent evidence indicates training all the way to →

llms training checkpoint averaging pythia llms convergence

发现论文，激发创造

通过对每个时期末的 k 个最新检查点的权重进行平均，可加速图像和自然语言模型的训练，并减少大量 GPU 时间，从而实现更快的收敛。

Sep, 2022

重新审视神经机器翻译中的检查点平均化

在神经机器翻译中，采用 checkpoint 平均值来提高模型的性能，此方法计算简单，被广泛采用。本文通过实验，考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用，结果表明 checkpoint 平均值对于性能的提高是必要的，但随着收敛到最优模型的序列不断增加，模型的改善空间较小。

Oct, 2022

LLM 预训练中的基于贝叶斯优化的检查点合并

我们提出了一种在预训练大型语言模型中合并检查点的方法，通过贝叶斯优化在广泛的搜索空间中找到最佳合并权重，实验证明我们的方法在最大限度减少成本的同时增加了预训练能力，并展示了跨多个领域的强大泛化能力。

Mar, 2024

WARM: 关于加权平均奖励模型的好处

通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗，本文提出了一种解决方案，即使用加权平均奖励模型（WARM），通过对多个奖励模型进行微调并在权重空间中进行平均，以提高模型预测的质量和对齐度。

Jan, 2024

DataStates-LLM：大型语言模型的惰性异步检查点

LLMs 在高维度计算机基础设施上进行训练和数据导入，为了解决大规模训练中的意外事件对学习造成的负面影响，研究如何减少 I/O 开销，提出了一种懒惰异步多级方法，通过复制模型数据的内容来降低训练过程中的干扰，实验结果显示其比现有的检查点方法具有高达 48 倍的检查点速度和 2.2 倍的全程训练时间。

Jun, 2024

如何培训数据高效的 LLMs

通过数据的有效利用，我们研究了大型语言模型的训练，提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性，同时以高效的方式训练模型。

Feb, 2024

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015

简单且可扩展的策略，用于持续预训练大型语言模型

大型语言模型的持续学习策略可以通过简单且可扩展的方法成功更新模型，同时只需使用一小部分计算资源来达到重新训练的效果。

Mar, 2024

平均权重导致更宽的随机局部极小值和更好的泛化

通过在 SGD 轨迹上抽样多个点进行简单平均，Stochastic Weight Averaging（SWA）过程实现了比传统训练更好的泛化，SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高，而且 SWA 实现简单、无几乎不需要计算成本。

Mar, 2018