优化层交替微分

Oct, 2022

Alternating Differentiation for Optimization Layers

Haixiang Sun, Ye Shi, Jingya Wang, Hoang Duong Tuan, H. Vincent Poor...

TL;DR本文提出了一种名为 Alt-Diff 的新框架，该框架将优化问题嵌入深度神经网络并快速递归求导，以提高计算速度。实验证明， Alt-Diff 在更少的时间内提供了与现有先进技术可比较的结果。

Abstract

The idea of embedding optimization problems into deep neural networks as optimization layers to encode constraints and inductive priors has taken hold in recent years. Most existing methods focus on implicitly di

optimization problems neural networks karush-kuhn-tucker conditions alt-diff computational speed

发现论文，激发创造

便宜微分算子的神经网络

本文介绍了一种使用受限神经网络架构来实现计算涉及到维度导数的微分算子的方法，改进了反向传播计算图，使其可以实现有效提取维度导数。该方法在一些应用场景中具有较低的复杂度，包括计算流体力学中的发散度、连续正规化流的精确密度计算以及训练随机微分方程模型中的 Fokker–Planck 方程求解。

Dec, 2019

高效模块化的隐式求导

该论文提出了自动隐式微分，一种隐式微分优化问题的高效且模块化的方法，将隐式微分和自动微分的优点结合起来，可应用于包括双层优化问题和分子动力学的敏感性分析等的各种应用领域。

May, 2021

机器学习中的自动微分：一项调查

本文分析自动微分、机器学习和动态计算图等的交叉领域，并详细定义了 “自动微分”、“自动微分” 和 “符号微分” 的主要技术及其相互关系。

Feb, 2015

可微程序张量网络

本篇论文介绍了可微编程的概念，研究如何将张量网络算法编程为可完全微分，提出了稳定的张量分解自动微分方法和通过迭代固定点实现反向传播的技术，应用于 Ising 模型和 Heisenberg 模型，取得了较好的优化效果。

Mar, 2019

可微凸优化层

该文章提出了一个通过不同的可微优化层实现端到端分析微分的方法，并重点介绍了如何通过离散凸程序进行不同的分析微分，同时在不同的框架中使用该方法，包括 CVXPY，PyTorch 和 TensorFlow 2.0。

Oct, 2019

diffGrad: 卷积神经网络的一种优化方法

本文提出了一种新的优化器 diffGrad，它基于当前和上一梯度之间的差异，并根据参数的梯度变化速度动态调整步长。作者通过实验证明了 diffGrad 在图像分类等任务上的优越性能，特别是与其他优化器相比，diffGrad 对于使用不同激活函数的 CNN 训练具有一致的优越表现。

Sep, 2019

交替更新在极小极大优化中的基本收益

梯度下降上升（GDA）算法用于解决极小极大优化问题，采用同时（Sim-GDA）或交替（Alt-GDA）的下降和上升步骤。我们对 Alt-GDA 和 Sim-GDA 进行了细致的收敛性分析，发现 Alt-GDA 的迭代复杂度上界严格小于 Sim-GDA 的下界，即 Alt-GDA 可证明更快速。此外，我们提出了交替外推 GDA（Alex-GDA），这是一个通用的算法框架，包含了 Sim-GDA 和 Alt-GDA，其主要思想是交替从迭代的外推中获得梯度，我们证明了 Alex-GDA 对于双线性问题具有线性收敛性，而 Sim-GDA 和 Alt-GDA 均无法收敛。

Feb, 2024

迭代算法的一步差分

本文提出一种新的自动求导方法 —— 一步法微分（Jacobian-free backpropagation），其性能可与隐式微分方法相媲美，并为快速算法（如超线性优化方法）提供了解决方案。其中使用特定的例子（如牛顿法和梯度下降法）对其进行全面的理论近似分析，并揭示了其在双层优化中的应用。通过多个数值示例，证明了这种一步估计器的正确性。

May, 2023

AGD：一种使用逐步梯度差分的自动可切换优化器用于预调整矩阵

我们提出了一种新的自适应优化器 AGD，它利用梯度差异作为对角元素来设计预条件矩阵，并引入了自动切换功能，能够在不同场景下自动切换 SGD 和自适应优化器，实现更好的泛化性能。

Dec, 2023

优化控制学习问题中隐式微分的再探

本研究提出了一种使用隐式函数定理（IFT）来区分非凸约束离散时间最优控制（COC）问题中的最优轨迹的新方法，该方法直接评估从应用变量消除到 Lagrange 乘数项的矩阵方程，使得轨迹导数与时间步数呈线性关系，具有易于并行化处理、与模型大小显著提高的可扩展性、直接计算向量雅可比积以及相较于以前的方法具有改进的数值稳定性等优势。

Oct, 2023