MMAug, 2023

一种基于随机优化的训练非线性神经网络的高阶全变差正则化方法

TL;DR高度表达的参数模型,如深度神经网络,在建模复杂概念方面具有优势,但这种高度非线性模型的训练已知存在高风险的过度拟合问题。为了解决这个问题,本研究考虑第 k 阶总变差(k-TV)正则化,该正则化定义为被训练的参数模型的 k 阶导数的平方积分,对 k-TV 进行惩罚有望产生更平滑的函数,以避免过度拟合。虽然应用于一般参数模型的 k-TV 项由于积分而具有计算上的困难,但本研究提供了一种随机优化算法,可以在不进行显式数值积分的情况下高效训练具有 k-TV 正则化的一般模型。所提出的方法适用于结构任意的深度神经网络的训练,因为它只需使用简单的随机梯度下降算法和自动微分即可实现。我们的数值实验表明,采用 K-TV 正则化训练的神经网络比传统参数正则化训练的神经网络更 “弹性”。所提出的算法还可以扩展至神经网络(PINNs)的物理知识训练。