BriefGPT.xyz
Ask
alpha
关键词
gradients
搜索结果 - 45
量子化学中的自动微分及其在全变分 Hartree-Fock 方法中的应用
本文论述自动微分(AD)在量子化学领域中的应用,展示了用 AD 计算任意参数的渐进值以及优化方法和 DiffiQult 算法的实现。
PDF
7 years ago
ICLR
使用近似 Hessian 矩阵加速分布式深度学习的 SGD
本文提出一种新的分布式计算方法,用于计算海森矩阵的逆的排名 $m$ 近似,该方法利用多个 Worker 的梯度和参数的差异,有效地实现了牛顿 - 拉夫逊方法的分布式近似,并揭示出二阶方法用于大规模随机优化问题的优点和挑战,特别是我们的工作表
→
PDF
7 years ago
反事实梯度
本研究探讨如何更好地捕捉深度网络中的特征重要性,通过计算构造出来的输入样本的内部梯度,该方法可以适用于各种复杂的神经网络模型,并可以与原有的梯度计算方法相比,更加方便易用。
PDF
8 years ago
通过 p - 范数门加速训练非常深的神经网络
本文提出一种 $p$-norm 控制流方案,通过控制数据流提高 LSTM、Residual Nets 等深度神经网络的学习速度。实验证明,在不增加额外操作的情况下,该方案显著加速了学习。
PDF
8 years ago
ICML
可逆学习的基于梯度的超参数优化
本文介绍了如何通过逆向随机梯度下降的动态过程精确计算出所有超参数的交叉验证性能梯度,并优化上千个超参数,包括学习速率、动量方案、权重初始化分布,多参数正则化方案和神经网络架构。
PDF
9 years ago
Prev
Next