通过均场朗动动力学学习多索引模型的神经网络
该研究针对噪声高维推理问题,通过对比Langevin算法和AMP算法的表现,发现Langevin算法的阈值不如AMP算法,并猜测这是由于该参数区域中存在残留玻璃态,最后还介绍了一种使用Langevin算法的景观退火协议,可以接近AMP的性能。
Dec, 2018
本研究发展了多层神经网络的数学严格框架,探究其在平均场条件下的学习轨迹,并证明了一些神经网络的性质,包括全局收敛性和初始化的影响。其中的新概念包括概率嵌入和双向多样性。
Jan, 2020
通过使用动力学均场理论的方法,我们分析了随机梯度下降在单层神经网络分类高维高斯混合数据上的学习动态。我们通过定义一种随机过程将随机梯度下降扩展到连续时间极限,称之为随机梯度流,并探讨了算法控制参数对其在损失函数空间中的导航的影响。
Jun, 2020
该研究在连续和离散时间设置下,针对正则化的目标函数给出了关于均值场Langevin动力学的简洁、自包含的收敛速率分析。作者证明了命题的关键在于该理论的复合推广的Gibbs分布。作者发现该分布与经验风险最小化中的对偶间隙存在关联,这可能使算法收敛的经验评估更加有效。
Jan, 2022
通过采用统计力学的方法,我们研究一个超参数全连接的神经网络分类任务的优化过程,发现该过程与热力学中的温度有类似的波动统计,确定了低误差区域为低维流形,且该维度由决策边界的附近数据点的数量控制,并解释了在高温下主要采样弯曲程度较大的地区的原因。
Apr, 2023
本文提出了一个新的框架来证明具有有限粒子逼近,时间离散化和随机梯度逼近误差的MFLD的混沌传播具有时间一致性,并在学习问题和不同梯度估计器的广泛范围内建立了量化的收敛速率保证,包括 SGD 和 SVRG 算法。
Jun, 2023
单指标模型是高维回归问题,根据未知的一维投影通过非线性、潜在非确定性的变换,标签与输入相关,涵盖了广泛的统计推断任务,提供了在高维领域研究统计和计算权衡的丰富模版。我们证明了在统计查询(SQ)和低次多项式(LDP)框架内计算高效算法所需的样本复杂度最低为Ω(d^k/2),其中k是与模型关联的“生成”指数,我们明确定义了这个指数。此外,通过使用部分跟踪算法建立的匹配上界证明了这个样本复杂度也是充分的。因此,我们的结果表明,在SQ和LDP类中,只要k>2,计算与统计之间存在明显的差距。为了完成这个研究,我们提供了具有任意大生成指数k的平滑和Lipschitz确定的目标函数的示例。
Mar, 2024
在这篇论文中,我们通过核方法的视角研究了两层神经网络在均场极限下的特征学习能力。我们利用两个时间尺度的极限来聚焦于第一层产生的核动态,从而将学习问题转化为对内在核的最小化问题。我们还展示了均场Langevin动力学的全局收敛性,并推导了时间和粒子离散化误差。此外,我们证明了两层神经网络可以比任何核方法更高效地学习多个再现核希尔伯特空间的并集,并且神经网络可以获得与目标函数对齐的数据相关核。我们还开发了一种标签噪声过程,该过程收敛到全局最优解,并展示了自由度作为一种隐式正则化现象。
Mar, 2024
学习性能的理论边界是该研究论文的重点,特别关注使用一阶迭代算法弱恢复低维结构所需的最小样本复杂度,在样本数量与协变量维度成正比的高维情况下,通过非线性变换来研究神经网络的特征学习,探讨多指数模型的各种算法、计算相变以及近似传递信息算法的最优性。
May, 2024
本研究针对神经网络在高维数据学习中的效率缺乏理论理解的问题,提出了一个通用模型——序列多索引模型,涵盖了众多已有模型。通过运用统计物理方法,本文系统性地分析了该模型的学习效果,提供了统一的分析框架,对于机器学习理论研究者与统计物理学家都具有重要的参考价值。
Sep, 2024