BriefGPT.xyz
大模型
Ask
alpha
关键词
gradient update
搜索结果 - 4
大型语言模型微调中的稀疏矩阵
通过选择稀疏子矩阵以减少计算资源开销和内存消耗,我们介绍了一种名为 Sparse Matrix Tuning (SMT) 的方法,用于填补参数有效微调(PEFT)与完全微调(FT)之间的性能差距,并在多个任务中展示了其超越了其他 PEFT
→
PDF
a month ago
小批次深度强化学习
在价值导向的深度强化学习中,回放记忆中的批大小参数指定了每次梯度更新要采样多少转换。尽管在提出新算法时通常不会调整此值,但它对于学习过程非常关键。在这项工作中,我们进行了一项广泛的实证研究,表明减小批大小可能导致许多显著的性能提升;这令人惊
→
PDF
9 months ago
NIPS
对于球形损失函数族的精确梯度更新,与输出大小无关的时间
本文提出了一种基于算法的方法,通过使用 loss 函数直接计算误差和梯度更新输出权重,而无需计算大维度向量,以实现高效地训练深度神经网络模型。
PDF
8 years ago
针对带有极大稀疏目标的深度神经网络训练的高效精确梯度更新
该论文提出了一种针对大规模高维稀疏目标训练深度神经网络的算法,可以大大提高计算效率,减少更新权重和反向传播所需的计算时间。
PDF
10 years ago
Prev
Next