了解深度学习需要了解核学习

Feb, 2018

To understand deep learning we need to understand kernel learning

Mikhail Belkin, Siyuan Ma, Soumik Mandal

TL;DR研究表明深度学习和浅层核方法在过拟合问题上表现相似，而不是泛化性能高的唯一因素，因此需要更深入地研究浅层核方法，以更好地理解深度学习。

Abstract

generalization performance of classifiers in deep learning has recently become a subject of intense study. Deep models, typically over-parametrized, tend to fit the training data exactly. Despite this "

generalization performance overfitting kernel machines deep learning shallow kernel methods

发现论文，激发创造

核回归和宽神经网络的波谱偏差和任务 - 模型一致性解释泛化

探究基于核回归的可推广性误差，解释了以 “简单函数” 为特征的归纳偏差，并表明更多数据可能会损害推广能力，还研究了与无限宽深度神经网络相关的旋转不变内核的数学性质。

Jun, 2020

过度拟合还是完美拟合？插值分类和回归规则的风险界限

本文分析局部插值方案，包括几何单纯插值算法和单一加权 k 近邻算法，在分类和回归问题中证明了这些方案的一致性或近一致性，并提出了一种解释对抗性示例的方法，同时讨论了与核机器和随机森林的一些联系。

Jun, 2018

基于现实假设的核回归泛化

对于几乎所有常见和现实设置，本论文旨在提供一种统一的理论来上界核回归的超额风险。通过提供适用于常见核函数和任意正则化、噪声、输入维度和样本数量的严格界限，并提供核矩阵特征值的相对扰动界限，揭示了核矩阵的特征值尾部分布形成一种隐式正则化现象，从而实现良好的泛化。本研究的结果适用于高输入维度的良性过拟合、固定维度的近似过拟合以及正则化回归的明确收敛速率。

Dec, 2023

深度学习：统计观点

探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功，以及其之所以具有超预期的表现，推断是因为过度参数化可以让梯度方法寻找插值解，这些方法隐含地施加正则化，并且过度参数化导致了良性过拟合等基本原理构成了这个现象，同时摘要了最新的理论进展，重点考虑了神经网络的线性区域。

Mar, 2021

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

高维高斯混合物的分类：核方法失败、神经网络成功

研究表明：在一些简单的分类任务中，只有少数隐藏神经元的两层神经网络可以超越核学习的性能，这是因为两层神经网络在高维极限下能够实现非常优秀的表现，并且节点超参数数目过多并不能提高其表现。

Feb, 2021

深度神经网络的惰性训练下的良性过拟合

该论文探讨和证明了过参数化的深度神经网络利用懒惰训练策略可以实现贝叶斯最优测试误差，同时获得（几乎）零训练误差，并提出了三个相关概念的统一。

May, 2023

深度学习的快速学习率：从核视角

本文提出了一种新的理论框架来分析深度学习的泛化误差，推导了代表性算法（经验风险最小化和贝叶斯深度学习）的新的快速学习率，并且发现在有限维度的近似模型中存在偏差 - 方差权衡。

May, 2017

理解 LLMs 需要超越统计概括

对深度学习的广义化现象、超参数化模型、非可识别性以及归纳偏见进行研究，并针对语言模型相关的广义化度量、可迁移性和归纳偏见提出了有前景的研究方向。

May, 2024