一般化误差的平均场分析

Jun, 2023

Mean-field Analysis of Generalization Errors

Gholamali Aminian, Samuel N. Cohen, Łukasz Szpruch

TL;DR通过对概率测度空间进行微分计算的视角，我们提出了一个探索算法的弱广义误差和 $L_2$ 广义误差的新框架。具体而言，我们考虑 KL - 正则化的经验风险最小化问题，并建立了通用条件，使得在训练样本大小为 n 的情况下，广义误差的收敛速率是 $O (1/n)$。在一隐藏层神经网络的平均场区域的监督学习方面，这些条件反映在对损失和激活函数的适当可积性和正则性假设中。

Abstract

We propose a novel framework for exploring weak and $L_2$ generalization errors of algorithms through the lens of differential calculus on the space of probability measures. Specifically, we consider the KL-regularized empirical risk minimization problem and establish generic condition

weak generalization $l_2$ generalization differential calculus empirical risk minimization one-hidden layer neural network

发现论文，激发创造

深度缩放 ResNets 在均场极限下的泛化性

在无穷深和宽神经网络的极限状态下，我们对被称为 scaled ResNet 的模型进行研究，以推导出其在 mean-field regime 下的泛化能力的界限，并提供了关于 Gram 矩阵最小特征值的全局下界、Kullback-Leibler 散度的线性收敛性以及 Rademacher 复杂度的统一收敛性，从而揭示了 lazy training regime 以外的深度神经网络通用化能力的新见解。

Mar, 2024

两层神经网络的平均场理论：无维界限和核极限

本文探讨利用随机梯度下降学习两层神经网络，将神经网络权重的演化近似为概率分布在 R^D 空间中的演化，从而得到概率分布的梯度流方程。我们分析了隐藏单元数量与数据规律性之间的相关性，扩展了此结果到无界激活函数的情况，将此结果应用到噪声随机梯度下降过程中，并展示了如何通过平均场分析特殊限制条件下的核岭回归。

Feb, 2019

神经梯度下降上升的均场分析：应用于功能条件矩方程

通过研究定义在无限维函数类上的极小极大优化问题，我们限定函数在过度参数化的两层神经网络类上，并研究（i）梯度下降 - 上升算法的收敛性和（ii）神经网络的表示学习。

Apr, 2024

深度学习的快速学习率：从核视角

本文提出了一种新的理论框架来分析深度学习的泛化误差，推导了代表性算法（经验风险最小化和贝叶斯深度学习）的新的快速学习率，并且发现在有限维度的近似模型中存在偏差 - 方差权衡。

May, 2017

基于核视角的两层神经网络的均场分析

在这篇论文中，我们通过核方法的视角研究了两层神经网络在均场极限下的特征学习能力。我们利用两个时间尺度的极限来聚焦于第一层产生的核动态，从而将学习问题转化为对内在核的最小化问题。我们还展示了均场 Langevin 动力学的全局收敛性，并推导了时间和粒子离散化误差。此外，我们证明了两层神经网络可以比任何核方法更高效地学习多个再现核希尔伯特空间的并集，并且神经网络可以获得与目标函数对齐的数据相关核。我们还开发了一种标签噪声过程，该过程收敛到全局最优解，并展示了自由度作为一种隐式正则化现象。

Mar, 2024

图神经网络在均场区域的泛化误差

该研究提供了一个理论框架，用于评估图神经网络在过度参数化阶段中进行图分类任务的泛化误差，其中参数数量超过数据点数量。我们探索了两种广泛使用的图神经网络类型：图卷积神经网络和消息传递图神经网络。在该研究之前，过度参数化阶段对泛化误差的现有界限不具信息性，限制了我们对过度参数化网络性能的理解。我们的新方法涉及在平均场阶段内导出上界，用于评估这些图神经网络的泛化误差。我们建立了收敛速度为 $O (1/n)$ 的上界，其中 $n$ 为图样本数量。这些上界在具有挑战性的过度参数化阶段为网络在未知数据上的性能提供了理论保证，并且总体上有助于我们对它们性能的理解。

Feb, 2024

嘈杂迭代算法的泛化误差界

本文证明了当损失函数为亚高斯函数时，基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界，此外还探究了噪声受限的迭代算法的泛化误差上界。

Jan, 2018

统计学习的一阶方法与通用预言机的泛化误差

我们提供了一种新的分析框架，用于分析统计学习中基于一阶优化算法的泛化误差，当只能通过一个 oracle 提供的部分观测来获取梯度。我们的分析依赖于梯度相对于数据样本的正则性，并且允许为多个学习问题，包括监督学习、迁移学习、鲁棒学习、分布式学习和使用梯度量化的通信高效学习推导出接近配对的上下界的泛化误差。这些结果适用于平滑和强凸优化问题，以及满足 Polyak-Lojasiewicz 假设的平滑非凸优化问题。我们的上下界依赖于一个新颖的量，它扩展了条件标准差的概念，并衡量了通过访问 oracle 获取梯度的程度。因此，我们的分析为优化统计学习目标的优化提供了精确的含义，即统计学习目标的优化与其梯度估计一样困难。最后，我们证明，在标准监督学习的情况下，批梯度下降法随着批次大小的增加和热启动可以达到近似最优的泛化误差，从而激励我们在实际应用中使用这种优化方案。

Jul, 2023

深度神经网络的平均场分析

通过确定性的积分微分方程建模，研究网络尺寸与随机梯度下降迭代次数同时较大时多层神经网络的极限行为，证明任何隐藏层数目下的极限行为，并在合适的激活函数和行为的假设下，表明极限神经网络可恢复全局最小值（目标函数无损失）

Mar, 2019

深度人工神经网络中经验风险最小化对一般化误差的分析：在数值求解 Black-Scholes 偏微分方程中克服维数灾难

探讨深度神经网络假设类上基于经验风险最小化 (ERM) 的新分类和回归算法在高维偏微分方程数值解中克服维数灾难的条件，并说明在多项式时间内只需合适数量的样本即可获得解。

Sep, 2018