理解早期权重平均对大型语言模型训练的有效性
通过对每个时期末的 k 个最新检查点的权重进行平均,可加速图像和自然语言模型的训练,并减少大量 GPU 时间,从而实现更快的收敛。
Sep, 2022
在神经机器翻译中,采用 checkpoint 平均值来提高模型的性能,此方法计算简单,被广泛采用。本文通过实验,考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用,结果表明 checkpoint 平均值对于性能的提高是必要的,但随着收敛到最优模型的序列不断增加,模型的改善空间较小。
Oct, 2022
我们提出了一种在预训练大型语言模型中合并检查点的方法,通过贝叶斯优化在广泛的搜索空间中找到最佳合并权重,实验证明我们的方法在最大限度减少成本的同时增加了预训练能力,并展示了跨多个领域的强大泛化能力。
Mar, 2024
通过强化学习将大型语言模型与人类偏好进行调整可能导致奖励欺骗,本文提出了一种解决方案,即使用加权平均奖励模型(WARM),通过对多个奖励模型进行微调并在权重空间中进行平均,以提高模型预测的质量和对齐度。
Jan, 2024
LLMs 在高维度计算机基础设施上进行训练和数据导入,为了解决大规模训练中的意外事件对学习造成的负面影响,研究如何减少 I/O 开销,提出了一种懒惰异步多级方法,通过复制模型数据的内容来降低训练过程中的干扰,实验结果显示其比现有的检查点方法具有高达 48 倍的检查点速度和 2.2 倍的全程训练时间。
Jun, 2024
通过数据的有效利用,我们研究了大型语言模型的训练,提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性,同时以高效的方式训练模型。
Feb, 2024
大型语言模型(LLMs)的计算和能源资源利用的推理性能进行了基准测试和初步分析,分析了不同规模的 LLMa 在两代热门 GPU(NVIDIA V100 和 A100)以及两个数据集(Alpaca 和 GSM8K)上的推理性能与推理能源成本。
Oct, 2023
本研究针对深度神经网络(DNN)的并行训练使用模型平均方法。多 GPU 数据并行化,MPI 进行节点间通信,每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置,研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练,可以实现 9.3 倍和 17 倍的加速,只有少量解码精度的损失。
Jul, 2015
通过在 SGD 轨迹上抽样多个点进行简单平均,Stochastic Weight Averaging(SWA)过程实现了比传统训练更好的泛化,SWA 获得了 CIFAR-10、CIFAR-100 和 ImageNet 上多个最先进网络的显着测试精度提高,而且 SWA 实现简单、无几乎不需要计算成本。
Mar, 2018