两层 ReLU 卷积神经网络在 XOR 数据中的良性过拟合

Oct, 2023

两层 ReLU 卷积神经网络在 XOR 数据中的良性过拟合

Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for XOR Data

Xuran Meng, Difan Zou, Yuan Cao

TL;DR通过梯度下降训练的过参数化的修正线性单元卷积神经网络在一定的样本复杂度和信噪比条件下能够实现接近贝叶斯最优准确率，并且能够高效地学习存在高度相关特征的异或类型分类任务。

Abstract

Modern deep learning models are usually highly over-parameterized so that they can overfit the training data. Surprisingly, such overfitting neural networks can usually still achieve high prediction accuracy. To study this "→

over-parameterized benign overfitting xor-type classification tasks relu cnn correlated features

发现论文，激发创造

ReLU 网络中 XOR 聚类数据的良性过拟合与理解

在本研究中，我们证明在两层 ReLU 网络中，通过梯度下降训练，当训练标签中有恒定比例的错误时，神经网络在第一步达到 100％的训练准确性，然后在测试数据上表现出随机的准确性，而在后续的训练步骤中达到接近最优的测试准确性，这展示了一种新的过拟合现象。

Oct, 2023

神经网络中良性过拟合现象的理解探讨

本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测，表明超学习风险会在满足一定条件的情况下逐渐减小，并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时，还发现当网络参数数量超过 O (n^2) 时，超学习风险开始增加，这与最近的实证结果相符。

Jun, 2021

输入维度适中的带有泄漏 ReLU 的网络中的良性过拟合

该研究针对二元分类任务，使用带有折线损失的两层泄漏整流线性单元网络，研究了良性过拟合问题，通过对模型参数的信号噪声比进行特征化，发现高信噪比出现良性过拟合，低信噪比出现有害过拟合，并将良性和非良性过拟合归因于近似边际最大化特性，同时降低了训练数据的正交性要求。

Mar, 2024

从 tempered 到 benign 的 ReLU 神经网络过拟合

本文研究过参数神经网络的过拟合现象，并证明了在不同的维度下会出现不同种类的过拟合现象，包括良性过拟合和温和过拟合，并解释了这些现象与样本大小、网络结构等因素的相关性。

May, 2023

使用铰链损失函数训练浅层 ReLU 网络的噪声数据：过拟合何时发生且是否良性？

本文探讨了使用梯度下降和 hinge loss 在嘈杂数据上训练的两层 ReLU 网络的良性过拟合问题，研究了线性可分数据，给出了干净数据边距的条件，得到了良性过拟合，过拟合和非过拟合三种不同的情况，并揭示了神经元训练过程中的两个不同阶段。

Jun, 2023

深度神经网络的惰性训练下的良性过拟合

该论文探讨和证明了过参数化的深度神经网络利用懒惰训练策略可以实现贝叶斯最优测试误差，同时获得（几乎）零训练误差，并提出了三个相关概念的统一。

May, 2023

神经网络中的特征学习和泛化：随机特征增强

本文探讨了二层 ReLU 神经网络梯度下降训练过程中的特征学习，研究了使用 XOR 函数生成的带标签二进制数据，对一定比例的训练标签的干扰具有影响。我们证明了线性分类器并不比随机猜测的效果更好，而使用梯度下降训练二层 ReLU 神经网络可以达到接近噪声率的泛化误差。我们提出了一种新的证明技术，证明了在初始化时，绝大多数神经元都具有随机特征的性质，与有用特征之间的相关性较弱，而梯度下降动态将这些弱随机特征 “放大” 为强有用特征。

Feb, 2022

深度 ReLU 网络学习所需的过度参数化程度是多少？

本研究探讨了在过度参数化的深度神经网络中，当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时，通过（随机）梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外，我们还构建了深层 ReLU 网络的学习保证，使得网络宽度对 n 和 ϵ 的对数具有良好保证。

Nov, 2019

过参数化的两层神经网络的优化与泛化的细粒度分析

该论文分析了一个简单的 2 层 ReLU 网络的训练和泛化，通过对相关内核的特性进行追踪，提出了更紧致的训练速度特征描述和网络大小无关的泛化界限以及对梯度下降训练的广泛平滑函数可学性的证明。

Jan, 2019

单隐藏层神经网络梯度流性质与线性激活函数的研究

通过研究神经网络的超参数化和过拟合对梯度下降算法鲁棒性的影响，我们证明了过度参数化会引入伪平衡点，阻碍梯度下降算法的收敛。

May, 2023