高效的逐例梯度计算
通过引入随机计算图的形式化方法,该论文描述了如何自动推导损失函数梯度的无偏估计量,提出了一种计算梯度估计器的算法,从而统一了以前工作中推导的估算器和其中的方差减少技术,该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型,包括注意力、记忆和控制动作。
Jun, 2015
本文探讨了使用LSTMs将优化算法设计转化为学习问题的方法,其中,通过让算法自动地利用感兴趣的问题中的结构,得出的学习算法在针对特定任务时比手动设计的算法表现更好,同时在具有相似结构的新任务上也具有很好的泛化性能,其应用范围从简单的凸问题,到神经网络训练和图像风格化等多种任务。
Jun, 2016
本文提供了一种新的解释cross-entropy loss的方法,并基于此推导出一种新的loss函数类,该类函数可以应用于任何有监督的学习任务中,提高收敛速度。
Jul, 2019
本文介绍了一种利用Gradient Normed (GraNd)和Error L2-Norm (EL2N)这两个简单的得分标准来识别深度学习中最重要的数据训练样本,并进行数据修剪以提高模型效果的方法,同时研究了数据分布对模型损失面的影响及模型中比较稳定的数据表示子空间等训练动态。
Jul, 2021
本文提出通过附加惩罚损失函数的梯度范数来提高深度神经网络的泛化性能,使用我们的方法可以改善不同数据集上的各种模型的泛化性能,并且最佳情况下可在这些任务上提供新的最先进性能。
Feb, 2022
神经网络的梯度具有比以前认为的更多结构,研究中探讨了梯度在可预测的低维子空间中的特点以及如何利用这种结构改进基于方向导数的无梯度优化方案。同时,突出了在最大程度地减小准确梯度计算方法和猜测梯度方法之间的优化性能差距方面所面临的新挑战。
Dec, 2023
通过研究使用神经切向核(NTK)优化方法来训练的网络,本文对使用梯度下降训练的网络建立了类似的结果,以扩展逼近结果的平滑性,从而显示了这两种理论的兼容性。
May, 2024
本文探讨了如何将一类有效的学习规则重新表述为自然梯度下降,解决了现有学习方法中的性能评估和更新策略缺陷。作者提出了一种适当定义的损失函数和度量,并发现了几种最优度量,包括具有最小条件数的度量,具有重要的理论和实践意义。
Sep, 2024