高阶统计的高效学习:假设检验、随机特征和神经网络
本文通过随机矩阵理论和线性模型中的准确解,研究了使用梯度下降训练的大型神经网络的泛化动态,发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响,当自由参数的有效数量等于样本数量时,网络过度训练最严重,大小的适当调整可以减少网络过度训练,另外,高维域下,低泛化误差需要从小的初始权重开始。此外,本文还发现了两个新的现象:在梯度下降过程中存在一个冻结的权重子空间,而高维状态的统计特性可保护免受过度训练的影响。
Oct, 2017
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的Hessian谱,研究发现该Hessian具有“尖峰”行为,同时分别分析各项的训练动态和样本大小变化情况。
Nov, 2018
本文回顾了最近一系列训练超参数神经网络和学习随机特征的实证结果及其限制性说明,论述了神经网络的理论困境并对其表现出的令人印象深刻的经验结果提出了仍需克服的挑战。
Apr, 2019
该研究指出神经网络首先学习数据分布的低阶矩,然后再学习高阶相关性。通过实验证据,证明了神经网络在训练早期会自动学习以最大熵分布为基础的低阶统计信息,但训练后期会失去这种能力。该研究还将分布简易偏差扩展到离散领域,并通过证明Token的n-gram频率与嵌入向量矩的等价性以及在LLMs中找到的实证证据,证明了该偏差。最后,研究利用最优运输方法对某一类的低阶统计信息进行手术式编辑,使其与目标类的统计信息相匹配,并展示了早期训练的网络将编辑后的样本视为从目标类中抽取的样本。
Feb, 2024
用随机矩阵理论和自由概率的基本工具简要推导了多种高维岭回归模型的训练和泛化性能,在物理学和深度学习背景的读者中提供了这些主题的介绍和评论。通过自由概率的$S$变换特性,从代数的几行直接获得训练和泛化误差的解析公式,能够直观地识别模型性能的幂律缩放来源。计算了广义类随机特征模型的泛化误差,发现在所有模型中,$S$变换对应于训练-测试泛化差距,并提供了广义交叉验证估计器的类比。利用这些技术,对具有结构化协变量的非常通用的随机特征模型得到了细粒度的偏差-方差分解。这些新颖结果使我们能够发现随机特征模型的缩放区域,在超参数设置中特征的方差限制了性能。我们还演示了随机特征模型中异向权重结构如何限制性能,并导致超参数设置中有限宽度修正的非平凡指数。我们的结果扩展并提供了对早期神经缩放定律模型的统一视角。
May, 2024
提出了一种新的机器学习理论,定义了数学上的规律性,通过结合信息理论,将规律性看作大量信息中编码的少量信息,并讨论了将多个脉冲函数应用于相同数据分布的过程,并提出了一种机器学习方法,可以在实践中获得给定数据集的最佳脉冲函数。
May, 2024
神经网络通过高维嘈杂的数据识别低维相关结构,我们对其工作原理的数学理解仍然有限。本文研究了使用基于梯度的算法训练的两层浅层神经网络的训练动态,并讨论了它们在具有低维相关方向的多指标模型中学习相关特征的方式。
May, 2024
学习性能的理论边界是该研究论文的重点,特别关注使用一阶迭代算法弱恢复低维结构所需的最小样本复杂度,在样本数量与协变量维度成正比的高维情况下,通过非线性变换来研究神经网络的特征学习,探讨多指数模型的各种算法、计算相变以及近似传递信息算法的最优性。
May, 2024
本研究针对神经网络在高维数据学习中的效率缺乏理论理解的问题,提出了一个通用模型——序列多索引模型,涵盖了众多已有模型。通过运用统计物理方法,本文系统性地分析了该模型的学习效果,提供了统一的分析框架,对于机器学习理论研究者与统计物理学家都具有重要的参考价值。
Sep, 2024