BriefGPT.xyz
大模型
Ask
alpha
关键词
checkpoint averaging
搜索结果 - 4
保存检查点线性组合提高一致性和扩散模型性能
利用合适的检查点平均系数, LCSC 方法能够通过沿训练轨迹结合检查点来增强 DM 和 CM 的性能,以降低训练成本并提高预先训练模型的生成质量。
PDF
3 months ago
ApproBiVT: 使用近似的偏差 - 方差折衷指导早停和检查点平均的先导 ASR 模型更好地泛化
在这篇论文中,我们从偏差和方差的权衡角度重新考虑并更新了早停和检查点平均值的方法,使用训练损失和验证损失作为偏差和方差的近似代理,并在高级 ASR 模型上验证时,我们的方法在 AISHELL-1 和 AISHELL-2 上分别降低了 2.5
→
PDF
a year ago
理解早期权重平均对大型语言模型训练的有效性
通过运用检查点平均化方法来改进大型语言模型(LLMs)的质量,在不增加额外培训或推理成本的前提下,缩短训练时间并提高测试和零样本泛化能力。
PDF
a year ago
ACL
重新审视神经机器翻译中的检查点平均化
在神经机器翻译中,采用 checkpoint 平均值来提高模型的性能,此方法计算简单,被广泛采用。本文通过实验,考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用,结果表明 checkpoint 平均值对于性能的提高
→
PDF
2 years ago
Prev
Next