高效的逐例梯度计算

Oct, 2015

Efficient Per-Example Gradient Computations

Ian Goodfellow

TL;DR文中提供了一种有效的技术来计算神经网络参数相对于损失函数的梯度范数。该梯度范数可以高效地针对每个示例进行计算。

Abstract

This technical report describes an efficient technique for computing the norm of the gradient of the loss function for a neural network wi

发现论文，激发创造

通过引入随机计算图的形式化方法，该论文描述了如何自动推导损失函数梯度的无偏估计量，提出了一种计算梯度估计器的算法，从而统一了以前工作中推导的估算器和其中的方差减少技术，该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型，包括注意力、记忆和控制动作。

Jun, 2015

本文探讨了使用LSTMs将优化算法设计转化为学习问题的方法，其中，通过让算法自动地利用感兴趣的问题中的结构，得出的学习算法在针对特定任务时比手动设计的算法表现更好，同时在具有相似结构的新任务上也具有很好的泛化性能，其应用范围从简单的凸问题，到神经网络训练和图像风格化等多种任务。

Jun, 2016

该论文提出了一种编码技术，以减少分布式学习任务的运行时间，并基于递归多项式结构提出了一种编码方案，优化了梯度计算的运行时间，同时保持相同泛化误差。

Feb, 2018

研究使用余弦相似度检测是否辅助损失有助于主要损失，证明该方法保证收敛到主要任务的临界点并在多任务学习和强化学习中实际发挥作用。

Dec, 2018

本文提供了一种新的解释cross-entropy loss的方法，并基于此推导出一种新的loss函数类，该类函数可以应用于任何有监督的学习任务中，提高收敛速度。

Jul, 2019

本文介绍了一种利用Gradient Normed (GraNd)和Error L2-Norm (EL2N)这两个简单的得分标准来识别深度学习中最重要的数据训练样本，并进行数据修剪以提高模型效果的方法，同时研究了数据分布对模型损失面的影响及模型中比较稳定的数据表示子空间等训练动态。

Jul, 2021

本文提出通过附加惩罚损失函数的梯度范数来提高深度神经网络的泛化性能，使用我们的方法可以改善不同数据集上的各种模型的泛化性能，并且最佳情况下可在这些任务上提供新的最先进性能。

Feb, 2022

神经网络的梯度具有比以前认为的更多结构，研究中探讨了梯度在可预测的低维子空间中的特点以及如何利用这种结构改进基于方向导数的无梯度优化方案。同时，突出了在最大程度地减小准确梯度计算方法和猜测梯度方法之间的优化性能差距方面所面临的新挑战。

Dec, 2023

通过研究使用神经切向核（NTK）优化方法来训练的网络，本文对使用梯度下降训练的网络建立了类似的结果，以扩展逼近结果的平滑性，从而显示了这两种理论的兼容性。

May, 2024

本文探讨了如何将一类有效的学习规则重新表述为自然梯度下降，解决了现有学习方法中的性能评估和更新策略缺陷。作者提出了一种适当定义的损失函数和度量，并发现了几种最优度量，包括具有最小条件数的度量，具有重要的理论和实践意义。

Sep, 2024