深度学习技巧

Nov, 2016

Tricks from Deep Learning

Atılım Güneş Baydin, Barak A. Pearlmutter, Jeffrey Mark Siskind

TL;DR本文介绍了深度学习社群已经开发的一系列方法，包括梯度优化、算法微分、机器学习和随机牛顿法，并详细讨论了其中两种方法的数学细节。

Abstract

The deep learning community has devised a diverse set of methods to make gradient optimization, using large datasets, of large and highly complex models with deeply cascaded nonlinearities, practical. Taken as a

deep learning gradient optimization algorithmic differentiation machine learning stochastic newton's method

发现论文，激发创造

随机自动微分

提出了随机自动微分 (RAD) 的一般框架和方法，可实现减少内存的无偏梯度估计，特别适用于小批量的反向传播神经网络，同时适用于科学计算中的优化控制参数

Jul, 2020

解密可导编程：Shift/Reset 倒数第二个反向传播器

本文研究了自动微分技术和其与限定续延之间的紧密关系，提出了无需任何辅助数据结构的运算符重载形式的反向模式自动微分实现，并将其与多阶段编程相结合，实现了 TensorFlow 等框架的计算性能优势和 PyTorch 等库的表达能力。

Mar, 2018

自动微分的简单本质

本文提出了一种由简单、自然的规范计算出的通用 AD 算法，通过使用 AD - 不可知编译器插件，这些算法可以直接从现有的编程语言中使用，无需新的数据类型或编程风格，并且不涉及任何图表、磁带、变量、偏导数或突变，从而更易于理解、改进和并行执行。

Apr, 2018

机器学习中的自动微分：一项调查

本文分析自动微分、机器学习和动态计算图等的交叉领域，并详细定义了 “自动微分”、“自动微分” 和 “符号微分” 的主要技术及其相互关系。

Feb, 2015

自动微分在神经网络求解微分方程中的重要性

神经网络方法在科学和工程领域中解决偏微分方程具有显著优势，尤其是在涉及复杂区域或纳入经验数据的情况下。本文引入截断熵的概念来表征训练性质，通过对随机特征模型和两层神经网络进行综合实验证明这一定义的截断熵可靠地量化随机特征模型的残差损失和神经网络在自动微分和有限差分方法下的训练速度，实验证明从训练角度看，自动微分能够在解决偏微分方程的问题上胜过有限差分法。

May, 2024

DrMAD：使用反向模式自动微分优化深度神经网络超参数的蒸馏

DrMAD 是一种通过优化同时保证模型效果的简单高效的方法，可以在超参数优化中通过近似反转训练轨迹最大化地利用前向传递的知识，是第一个实现自动调整深度神经网络数千个超参数的研究尝试。

Jan, 2016

一种自适应快速收敛的差分隐私深度学习方法

本文提出了 ADADP 算法，该算法是一种自适应且具有可证明隐私保证的学习算法，通过引入自适应噪声以及自适应学习率，显著降低了隐私成本并减轻了差分隐私对模型准确性的负面影响。ADADP 在真实数据集上的实验结果表明，它在隐私成本和模型准确性方面都优于最先进的具有差分隐私的方法。

Dec, 2019

深度学习：统计观点

探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功，以及其之所以具有超预期的表现，推断是因为过度参数化可以让梯度方法寻找插值解，这些方法隐含地施加正则化，并且过度参数化导致了良性过拟合等基本原理构成了这个现象，同时摘要了最新的理论进展，重点考虑了神经网络的线性区域。

Mar, 2021

一种提高神经网络准确性的新方法：恢复传统反向传播技术

本研究提出了一种新的即时参数更新方法，通过消除每层计算梯度的需要来加速学习、避免梯度消失问题，并在基准数据集上优于最先进的方法，为高效有效的深度神经网络训练提供了一个有希望的方向。

Aug, 2023

机器学习算法的自动微分

本文介绍了自动微分技术及其在机器学习中的应用，包括其两种主要模式和能够提高计算效率的优势。该技术具有普遍适用性，不需要先验知识，值得广泛的应用。

Apr, 2014