对抗训练中过拟合的深度神经网络能否泛化？—一种近似观点

Jan, 2024

对抗训练中过拟合的深度神经网络能否泛化？—一种近似观点

Can overfitted deep neural networks in adversarial training generalize? -- An approximation viewpoint

Zhongjie Shi, Fanghui Liu, Yuan Cao, Johan A. K. Suykens

TL;DR对深度神经网络（DNN）进行逆向训练以提高其对敌对扰动的鲁棒性是一种被广泛采用的方法。然而，经验观察到，对于超参数化网络的逆向训练往往存在“鲁棒过拟合”问题：它可以实现接近于零的逆向训练错误，但鲁棒性的泛化性能不佳。本文从逼近的角度对逆向训练中过拟合的DNN的泛化能力进行了理论研究，得出了三个主要结果：i）对于分类问题，我们通过构造证明在超参数化的DNNs上存在无穷多的逆向训练分类器，可以获得任意小的逆向训练错误（过拟合），同时在数据质量、明显分离和扰动水平等方面满足一定条件时可以获得良好的鲁棒泛化误差。ii）只要目标函数足够平滑，线性超参数化（即参数数量略大于样本大小）就足以确保这种存在性。iii）对于回归问题，我们的结果证明，在逆向训练中存在无穷多的超参数化过拟合DNNs，可以实现几乎最优的标准泛化误差收敛速率。总体来说，我们的分析指出，鲁棒过拟合是可以避免的，但所需的模型容量将取决于目标函数的平滑程度，而鲁棒泛化差距是不可避免的。我们希望我们的分析能够更好地从逼近的角度理解DNNs的鲁棒性的数学基础。

Abstract

adversarial training is a widely used method to improve the robustness of deep neural networks (DNNs) over adversarial perturbations. However, it is empirically observed that adversarial training on →