双层优化的截断反向传播

Oct, 2018

Truncated Back-propagation for Bilevel Optimization

Amirreza Shaban, Ching-An Cheng, Nathan Hatch, Byron Boots

TL;DR本文分析了通过截断反向传播计算的近似梯度的属性，并为其收敛。研究表明，使用几步反向传播计算的近似梯度优化通常与使用精确梯度的优化相当，同时需要更少的内存和一半的计算时间。

Abstract

bilevel optimization has been recently revisited for designing and analyzing algorithms in hyperparameter tuning and meta learning tasks.

bilevel optimization hyperparameter tuning meta learning truncated back-propagation approximate gradient

发现论文，激发创造

随机超梯度的收敛性质

本文研究了随机逼近方案的超梯度，提供了超梯度逼近的均方误差界限，并提供了数字实验来支持理论分析和展示在实践中使用随机超梯度的优势。

Nov, 2020

关于超梯度计算的迭代复杂度

本文研究了一个广泛的双层问题类别，其中包括上层目标函数的最小化和参数化的定点方程的解。在假设定点方程由一个收缩映射定义的前提下，我们提供了一种统一的分析方法，以便第一时间定量比较各种方法，为它们的迭代复杂性提供明确的界限，并建议采用逐步共轭梯度的近似隐式微分法来进行超梯度的计算，并通过实验确认了理论上的发现。

Jun, 2020

可逆学习的基于梯度的超参数优化

本文介绍了如何通过逆向随机梯度下降的动态过程精确计算出所有超参数的交叉验证性能梯度，并优化上千个超参数，包括学习速率、动量方案、权重初始化分布，多参数正则化方案和神经网络架构。

Feb, 2015

超参数优化和元学习的双层编程

基于双层规划的元学习方法，将表示层作为共享超参数，在少数样本情况下实现了较好的结果。

Jun, 2018

可扩展的深度学习嵌套优化

梯度下降优化在机器学习的成功中起到了关键作用，本研究论文聚焦于嵌套优化问题，特别是超参数优化和生成对抗网络；然而，在大规模求解嵌套问题时，经典方法往往表现不佳，因此我们针对深度学习环境构建了可扩展的嵌套优化工具。

Jul, 2024

动态双层学习与不精确线搜索

使用变分正则化方法，通过双层学习来学习合适的超参数，同时提出了能够收敛到损失函数超参数的稳定点的近似回溯线搜索算法，并在变分正则化问题的超参数估计中展示了其有效性和可行性。

Aug, 2023

基于梯度的双层优化在深度学习中的应用

本篇综述论文研究了基于梯度的双层优化方法在深度学习中的应用和发展，通过探讨单任务和多任务优化问题的双层公式和四种优化器的应用，展示其在优化超参数和提取元知识方面的实用性和高效性，最后指出其广阔的科学问题应用前景。

Jul, 2022

超参数优化中双层规划的稳定性和泛化性

本文研究双层规划的理论分析，并提出了一种基于统一稳定性的期望边界解释验证集方面的一些神秘的行为。同时证明了正则化项可以缓解梯度算法过拟合问题。

Jun, 2021

通过极小极大重表达实现高效双层优化

提出了一种将双层优化问题重新设计成极小极大问题的方法，并采用渐进式梯度下降上升算法来解决该问题，结果表明该算法在降低计算成本的同时，优于现有的基于双层优化的算法。

May, 2023

提高超梯度估计：预条件和参数重参数化的研究

双层优化是一种针对依赖于内部优化问题解的外部目标函数进行优化的方法，在机器学习中广泛应用于超参数调整。本研究通过研究隐藏变量方法的误差，分析了两种减小误差的策略：预处理隐藏变量公式和重新参数化内部问题。我们详细说明了这两种修改对误差的影响，并强调了涉及的功能的高阶导数所起的作用。我们的理论发现解释了何时可以实现超级效率，即使得超梯度的误差与内部问题的误差二次相关，并在这种情况下比较了两种方法。对回归问题的超参数调整的数值评估验证了我们的理论发现。

Feb, 2024