探讨了深度学习中简单梯度方法在寻找接近最优解的非凸优化问题上的出人意料的成功,以及其之所以具有超预期的表现,推断是因为过度参数化可以让梯度方法寻找插值解,这些方法隐含地施加正则化,并且过度参数化导致了良性过拟合等基本原理构成了这个现象,同时摘要了最新的理论进展,重点考虑了神经网络的线性区域。
Mar, 2021
本文定义了增量学习动力学的概念并证明了在深度为多项式关系和初始化条件正确的情况下,神经网络可以展现出增量学习能力,且通过实验证明在使用深度学习模型中,梯度下降算法有助于寻找简单的模型解。
Sep, 2019
这篇文章介绍了关于神经网络的统计理论,从三个角度进行了综述:非参数回归或分类中关于神经网络过度风险的结果,神经网络的训练动力学以及生成模型中的最新理论进展。
Jan, 2024
本文提出了一种新颖的基于测度论的机器学习理论,不需要统计假设。基于该理论,提出了一种新的深度学习正则化方法,并表明其在 CIFAR-10、CIFAR-100 和 SVHN 中优于之前的方法。此外,该提出的理论为深度学习中的一族实际成功的正则化方法提供了理论基础。与统计学习理论不同,该提出的学习理论通过测度论分析每个问题实例,而不是通过统计分析一组问题实例,因此提供了不同类型的结果和见解。我们还讨论了该结果对一次性学习、表示学习、深度学习和课程学习的几种后果。
Feb, 2018
这篇研究论文对统计学习理论的主要想法和见解进行了温和、非技术性的概述。这篇论文可作为人们在深入了解技术细节之前对该领域有一个概要的起始点。
Oct, 2008
本文研究用于解决深度学习的隐含偏差问题的梯度下降算法动态收敛性,在线性网络和估计问题上,分析梯度下降中的 “有效秩” 动态变化,提出了矩阵低秩投影的有效秩,为理解深度学习奠定了基础。
Nov, 2020
机器学习系统通常通过利用数据中的不希望的特征获得偏差,对不同的亚群体造成不同程度的精确度影响。本文探讨了在教师 - 学生模型中,模拟不同数据亚群体的高斯混合模型,偏差如何演化的问题。我们提供了这种设置下线性分类器随机梯度下降动力学的解析描述,该描述在高维度下被证明是准确的。值得注意的是,我们的分析揭示了亚群体的不同属性在不同时间尺度上如何影响偏差,展示了分类器在训练过程中偏好的转变。将我们的发现应用于公平性和鲁棒性,我们阐述了异质数据和虚假特征如何生成和放大偏差的时间与方式。通过在合成数据集和真实数据集(包括 CIFAR10,MNIST 和 CelebA)上训练更深层次的网络来经验性地验证我们的结果。
May, 2024
本文研究了深度神经网络并使用表示群流的概念及信息论技巧,分析了其非线性模型的学习机制和有效模型复杂性及超参数等参数的归纳偏置。
Jun, 2021
本研究针对自监督学习提供了首个理论分析,其中包括来自模型类祖产的归纳偏差的影响。我们特别关注对比学习 - 一种在视觉领域广泛使用的自监督学习方法。我们发现,当模型具有有限的容量时,对比表示将恢复与模型结构兼容的某些特殊聚类结构,但忽略数据分布中的许多其他聚类结构,从而捕捉了更加现实的情景。我们将理论实例化为几个合成数据分布,并提供实证证据来支持该理论。
Nov, 2022
本文提出一个系统研究深度生成模型的偏差和泛化的框架,并通过认知心理学实验方法探讨其生成新属性和组合的特点与人类心理学的相似之处。作者发现这些模式与常用模型和结构一致。
Nov, 2018