深度双层学习

ECCVSep, 2018

Deep Bilevel Learning

Simon Jenni, Paolo Favaro

TL;DR本文提出了一种新颖的正则化训练神经网络的方法，基于交叉验证的原则，通过使用验证集来限制模型过拟合，其中通过引入在每个小批量训练集上的权重来控制过拟合，并通过在验证集上最小化误差来选择其值，此项工作可与其他正则方法和训练方案相结合，研究表明其显著提高了模型的泛化能力，特别是在标签嘈杂情况下。

Abstract

We present a novel regularization approach to train neural networks that enjoys better generalization and test error than standard stochas

neural networks regularization generalization validation set overfitting

发现论文，激发创造

使用双层优化重新加权数据的挑战

利用大训练集训练模型以在不同分布的较小测试集上表现良好的任务中，通过为每个训练数据点学习权重是一种吸引人的解决方案，但传统的双层优化算法可能导致次优解，这表明了数据重新加权的困难，并解释了为何这种方法很少在实践中使用。

Oct, 2023

超参数优化中双层规划的稳定性和泛化性

本文研究双层规划的理论分析，并提出了一种基于统一稳定性的期望边界解释验证集方面的一些神秘的行为。同时证明了正则化项可以缓解梯度算法过拟合问题。

Jun, 2021

通过双层学习寻找最优正则化参数

利用变分正则化方法求解线性反问题时，采用超参数调节正则化项，通过强化先验信息来提高求解结果，核心问题在于如何选择一个合适的正则化参数。本文提出了一个新的条件来更好地描述正则化参数的正性，并验证和探索了这个新条件，同时也探究了这个新条件在小和大维问题上的应用。

May, 2023

关于双层优化问题的稳定性和泛化性

本文针对双层 (随机) 优化问题，探讨了梯度下降方法的算法稳定性与泛化误差之间的基本联系，并在一般性情形下给出了稳定性界限的分析，通过实验证明了迭代次数对泛化误差的影响。

Oct, 2022

通过极小极大重表达实现高效双层优化

提出了一种将双层优化问题重新设计成极小极大问题的方法，并采用渐进式梯度下降上升算法来解决该问题，结果表明该算法在降低计算成本的同时，优于现有的基于双层优化的算法。

May, 2023

具有可扩展在线双层优化的自适应训练分布

在现代机器学习中，基于网络规模的大型神经网络学习成为核心。本研究考虑在一个与应用领域不匹配的混杂预训练数据集的情况下，通过调整预训练分布的算法来适应目标测试条件。通过在线双层优化问题的一种近期表述，提出了一种算法，并考虑了可扩展性，该算法优先计算在训练点上的梯度，这些点最有可能改善目标分布上的损失。从经验证实，在某些情况下，这种方法比现有的领域适应性策略更加有益，但在其他情况下可能不成功。我们提出了一个简单的测试来评估我们的方法何时表现良好，并指出进一步的研究来解决当前的限制。

Nov, 2023

隐式双层优化：通过双层优化规划进行求导

本篇研究提出 Differentiating through Bilevel Optimization Programming (BiGrad) 模型，旨在将 Bi-level Programming 加入到神经网络中，通过类别估计算法以降低计算复杂度并支持对于连续变量的处理。实验结果表明，该模型成功地将传统单层方法扩展到了 Bi-level Programming

Feb, 2023

BloomGML: 透过双层优化镜头看图机器学习

双层优化是指将下层能量函数的最优解作为上层感兴趣的目标的输入特征。本文说明了一系列图学习技术可以被重新解释为双层优化的特殊情况或简化形式，并提出了更灵活的能量函数类，形成图神经网络的消息传递层。此外，本文探索了与非图神经网络图学习方法的密切联系，并通过实证结果展示了所提出的双层优化方法的多样性。

Mar, 2024

超参数优化和元学习的双层编程

基于双层规划的元学习方法，将表示层作为共享超参数，在少数样本情况下实现了较好的结果。

Jun, 2018

提高的双层模型：具有理论保证的快速和最优算法

本文提出了一种改进的双层模型，该模型利用自动差分算法优化了双层模型的公式，并在数据超级清理和超级表示学习等两个任务中进行了理论和实验评估，结果显示新模型的性能优于当前双层模型。

Sep, 2020