深度学习的可证明限制
本文对于多项式时间内深度学习可以或不可以学习的函数分布进行了刻画,并证明了基于 SGD 的深度学习的通用性结果和基于 GD 的深度学习的非通用性结果。
Jan, 2020
本文通过学习一个 $k$ 位稀疏的 $n$ 位奇偶性来探索大规模数据集、模型规模和训练时间对模型训练计算问题的影响。研究发现神经网络可以成功地学会稀疏的奇偶性,并在训练过程中存在非连续的相变点。理论分析表明,这些观察结果不是通过 Langevin-like 机制解释的,而是通过在人口梯度中的 Fourier 间隙逐渐放大稀疏解来实现。
Jul, 2022
本文通过深度神经网络的 Kolmogorov 最优化来发展其基本极限,并阐述了深度网络对于不同函数类的 Kolmogorov 最优逼近性,其提供了指数级的逼近精度,并且在逼近足够光滑的函数时,相较于有限宽深网络,有限宽深层网络需要更小的连通性。
Jan, 2019
从有限的点值样本学习多变量平滑目标函数的近似是科学计算和计算科学工程中的一个重要任务。本文调查了近年来在此方面取得的重大进展,描述了来自参数模型和计算不确定性量化的当代动机,无穷维巴拿赫空值全纯函数类,这些类的有限数据可学习性的基本限制,以及从有限数据高效学习此类函数的稀疏多项式和深度神经网络方法。针对深度学习的实际性能与深度神经网络的近似理论之间的差距,我们发展了实际存在理论的主题,宣称存在维度无关的 DNN 结构和训练策略,以证明在训练数据量方面具有可证明近似最优的泛化误差。
Apr, 2024
本文研究神经网络的理论解释,针对单个隐藏层、平滑激活函数和良好输入分布条件下生成的数据可否进行有效学习,证明了对于广泛的激活函数和任何对数凹分布的输入,存在一类单隐藏层函数,其输出为和门,难以以任何精度有效地学习,这一下界对权重的微小扰动具有鲁棒性,且通过实验验证了训练误差的相变现象。
Jul, 2017
本论文旨在应用物理学中的对称性、局域性、复合性和多项式对数概率等性质,研究深度神经网络在近似处理特定实际问题时可以使用相对简单的模型,从信息论的角度证明这些理论,并通过层次结构的机制使深层模型比浅层模型更高效。
Aug, 2016
这篇论文揭示了深度人工神经网络在 Kolmogorov PDEs 数值逼近中克服了维数灾难的现象。我们证明了所用 DNN 模型的参数数量在 PDE 维数 d 和逼近精度的倒数 ε 的倒数中,最多呈多项式增长。
Sep, 2018
本文主要研究深度神经网络、近似能力和可学习性之间的复杂关系,提出了必须在浅层神经网络中近似目标函数的概念,并给出了多个范例证明了深度神经网络的分离性,并结论它们即使被高效近似,也不能被高效学习。
Jan, 2021
最近的量子机器学习的理论结果表明了量子神经网络(QNNs)的表达能力和可训练性之间的一般性权衡;作为这些结果的推论,实际中在表达能力上超过经典机器学习模型的指数级差异被认为是不可行的,因为这样的 QNNs 训练所需的时间与模型大小的指数成正比。我们通过构建一种层次化的可高效训练的 QNNs,成功地绕过了这些负面结果,其在经典序列建模任务中展示了无条件可证的多项式内存分离性能,而且所引入的 QNNs 的每个单元均在量子设备上能够以恒定的时间进行计算。我们证明了这种分离性能在经典神经网络类型中成立,包括循环神经网络和 Transformer 等众所周知的网络。我们展示了量子背景的特殊性是导致表达能力分离的根源,这表明在具有长时间相关性的其他经典序列学习问题中,量子机器学习可能存在实际上的优势。
Feb, 2024