关于在训练 ResNets 中交叉熵损失的耗散性

May, 2024

关于在训练 ResNets 中交叉熵损失的耗散性

On Dissipativity of Cross-Entropy Loss in Training ResNets

Jens Püttschneider, Timm Faulwasser

TL;DR从最优控制的角度来看，研究了 ResNets 和神经 ODE 的训练方法，并提出了针对分类问题的一种耗散式训练方法，在阶段成本中引入交叉熵的一种变体作为正则化项。基于训练的耗散式方法，证明了经过训练的 ResNet 具有转矩现象。通过对两个螺旋曲线和 MNIST 数据集进行训练，进一步说明了训练过程具有转矩现象，这可以用来找到适合给定分类任务的非常浅的网络。

Abstract

The training of resnets and neural odes can be formulated and analyzed from the perspective of optimal control. This paper proposes a diss

resnets neural odes optimal control dissipative formulation turnpike phenomenon

发现论文，激发创造

深度残差网络对神经常微分方程的隐式正则化

深度残差网络与神经常微分方程之间的离散化联系被建立，证明了在特定条件下网络收敛至全局最小值。

Sep, 2023

神经常微分方程作为具有恒定权重的 ResNets 的深度极限

本研究证明，当深度趋近于无限时，共享同一权重矩阵的 ResNet 类型深度神经网络上的随机梯度下降收敛于神经 ODE 的随机梯度下降，并且相应的值 / 损失函数收敛。我们的结果为考虑神经 ODE 作为 ResNet 的深度极限提供了理论基础。我们的证明基于相关 Fokker-Planck 方程的衰减估计。

Jun, 2019

非约束耗散和收缩神经常微分方程的参数化

该论文介绍了一种使用神经常微分方程与循环平衡网络相结合的连续时间深度神经网络，该网络在不受限制的参数化情况下拥有可收缩和可耗散性，且可以处理非规则采样数据，用于非线性系统识别。

Apr, 2023

利用凸分析和 ODE 设计稳定的神经网络

本文提出了一种 ResNet 风格的神经网络架构，编码非扩张（1-Lipschitz）算子，不同于普通的 ResNet 架构，该架构的 Lipschitz 常数不会随着网络深度的增加而呈指数级增长。进一步分析表明，权重的谱范数可以进一步约束，以确保网络是平均算子，使其成为 Plug-and-Play 算法中学习去噪器的自然候选物。通过一种新颖的自适应方法实现了谱范数约束，证明了即使有这些约束，也可以训练出性能良好的网络。提出的架构应用于对抗鲁棒图像分类问题，图像去噪以及反问题退化模糊。

Jun, 2023

动量残差神经网络

本研究提出了一种新的神经网络结构，称为动量残差神经网络 (Momentum ResNets)，其采用可逆性结构和动量机制，优于现有的可逆结构，能够学习任何线性映射并在 CIFAR 和 ImageNet 上具有与 ResNets 相同的准确度，且具有更小的内存占用。

Feb, 2021

深度残差网络的缩放性质

通过数值实验，我们研究了 Residual 网络的权重性质和与深度有关的规模，在某些网络结构下得到了另一种常微分方程的极限，这表明了深度 ResNets 的极限模型不完全适用于神经正则微分方程。

May, 2021

理解具有条件最优输运的无限深度和宽度的 ResNet 的训练

该研究探讨深度神经网络训练中的梯度流收敛问题，并提出了一种基于条件最优传输距离的训练模型，通过梯度流方程的良定性和多项式 - Lojasiewicz 分析证明了在适当的初始化条件下，梯度流可以收敛于全局极小值。

Mar, 2024

关于 ResNets 的时空表达性

该研究论文研究了残差网络（ResNets）在监督学习中的作用，提出了其作为 ODEs 的时空近似，并探讨了通过 ResNets 中残差块的数量和表达能力的增加来逼近 ODEs 的解，并推导了一定规则下获得预定精度所需的残差块复杂性的估计。

Oct, 2019

神经 ODEs 和可逆残差网络的逼近能力

证明了任何拓扑同胚都可以用在 $p$- 维欧几里得空间上的神经 ODE 或 i-ResNet 逼近，且也同时表明，用单个线性层对神经 ODE 或 i-ResNet 进行修整，就足以将模型变为非可逆连续函数的通用逼近器。

Jul, 2019

任意深度残差神经网络可逆架构

本研究将深度残差网络解释为普通微分方程，并由此开发出一种稳定和可逆的深度神经网络理论框架，以及提出了三种可任意加深的可逆神经网络架构，实现了对深度网络的记忆高效实现，并且通过实验证明了本文方法在 CIFAR-10，CIFAR-100 和 STL-10 等数据集上取得了明显的优于现有强基准的性能表现，并且能够通过使用更少的训练数据来训练神经网络。

Sep, 2017