关于隐式模型的训练

Nov, 2021

On Training Implicit Models

Zhengyang Geng, Xin-Yu Zhang, Shaojie Bai, Yisen Wang, Zhouchen Lin

TL;DR该论文探讨了训练无限层次的隐式模型的方法，提出了一种新的梯度估计方法 —— 幻影梯度，该方法通过对精确梯度的计算进行优化，可以加速模型训练，并提高模型性能。

Abstract

This paper focuses on training implicit models of infinite layers. Specifically, previous works employ implicit differentiation and solve the exact gradient for the backward propagation. However, is it necessary

implicit models gradient estimation phantom gradient training neumann series

发现论文，激发创造

隐式模型的梯度估计器

该论文提出了斯坦梯度估计器，通过直接估计隐式定义分布的评分函数，消除了许多学习隐式模型的近似。该方法的有效性通过元学习和熵正则化 GAN 的实例得到了证明。

May, 2017

通过隐式微分优化数百万个超参数

使用梯度优化算法，利用隐函数定理及反向黑塞矩阵逼近来提高超参数优化的效率，成功应用于训练超大规模网络架构，例如数据增强网络，整个过程只比标准训练多花费少量内存与计算资源。

Nov, 2019

显式优化神经网络减少反向传播需求并发现更好的极值

基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能，但目前仍然计算代价高昂，尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案，既能降低神经网络的扩展成本，又能为低资源应用提供高效的优化。通过数学分析其梯度，我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型，我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中，我们发现在计算上，明确的解决方案可以接近最优解，同时证明了：1) 迭代优化对明确解决方案参数的改进仅有微小影响，2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络，并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用，我们强调仅通过反向传播无法达到这些最优解，即只有在应用明确解决方案后才能发现更好的最优解。最后，我们讨论了解决方案的计算节约以及它对模型可解释性的影响，并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。

Nov, 2023

深度线性分类中的隐式偏见：初始化规模与训练准确性

研究了在 “对角线线性网络” 上最小化指数损失的梯度流轨迹及其隐式优化偏差的详细渐近研究，揭示了 “核” 与非 “核”（“丰富” 或 “活跃”）状态之间的转换如何受初始缩放和最小化训练损失的精度之间的关系控制，结果表明，梯度下降的某些极限行为仅在荒谬的训练精度（远远低于 $10^{-100}$）时才能发挥作用。此外，在合理的初始化尺度和训练精度下，隐式偏差更为复杂，超出了这些极限的范畴。

Jul, 2020

隐式梯度正则化

本文研究了梯度下降算法在优化神经网络时的表现，发现梯度下降中的离散步骤隐含地通过惩罚大损失梯度轨迹的方式实现了模型的正则化，这种 “隐性梯度正则化” 导致梯度下降趋向于平坦的最小值，使解决方案对噪声参数扰动有很好的鲁棒性，这一理论有助于解决过拟合问题。

Sep, 2020

线性神经网络训练中隐性偏差的统一视角

研究了线性神经网络训练中渐进流（即用无穷小步长的梯度下降法）的隐含偏差；提出了神经网络的张量形式，包括全连接、对角线和卷积网络等特例，并研究了称为线性张量网络的公式的线性版本。通过这个公式，我们可以将网络的收敛方向表征为由网络定义的张量的奇异向量。

Oct, 2020

用隐式随机梯度下降训练物理感知神经网络

本文提出了使用隐式随机梯度下降方法来训练物理学指导神经网络，并经过理论和实验分析证明该方法能够有效地提高训练过程的稳定性，并比 SGD 和 Adam 等其他优化方法更有效地解决训练动态中的数值僵硬问题。

Mar, 2023

如何猜测梯度

神经网络的梯度具有比以前认为的更多结构，研究中探讨了梯度在可预测的低维子空间中的特点以及如何利用这种结构改进基于方向导数的无梯度优化方案。同时，突出了在最大程度地减小准确梯度计算方法和猜测梯度方法之间的优化性能差距方面所面临的新挑战。

Dec, 2023

线性神经网络中离散梯度动态的隐式正则化

本文研究了过参数化模型的离散梯度动态，并证明在使用适当超参数和初始化条件时，该动态可以学习降低秩的回归问题的解。

Apr, 2019

关于在一致性正规化中应用隐式元学习的训练

通过对不同的 Hessian 逼近方法进行系统性比较分析，研究了隐式元训练在收敛点曲率估计方面的局限性以及其稳定性问题，并利用所得见解提出并评估了一种新型半监督学习算法，该算法通过培训 “信心网络” 来加权一致性正则化损失，提高了基准 FixMatch 效果。

Oct, 2023