May, 2024

关于在训练 ResNets 中交叉熵损失的耗散性

TL;DR从最优控制的角度来看,研究了 ResNets 和神经 ODE 的训练方法,并提出了针对分类问题的一种耗散式训练方法,在阶段成本中引入交叉熵的一种变体作为正则化项。基于训练的耗散式方法,证明了经过训练的 ResNet 具有转矩现象。通过对两个螺旋曲线和 MNIST 数据集进行训练,进一步说明了训练过程具有转矩现象,这可以用来找到适合给定分类任务的非常浅的网络。