随机梯度下降揭示儿童学习物理的过程

Sep, 2022

随机梯度下降揭示儿童学习物理的过程

Stochastic Gradient Descent Captures How Children Learn About Physics

Luca M. Schulze Buschoff, Eric Schulz, Marcel Binz

TL;DR研究发现，神经网络的学习轨迹可以捕捉儿童认知发展的轨迹，从而支持将认知发展解释为某种随机优化过程的观点。

Abstract

As children grow older, they develop an intuitive understanding of the physical processes around them. They move along developmental trajectories, which have been mapped out extensively in previous empirical research. We investigate how children's →

developmental trajectories cognitive development stochastic optimization generative neural network physical understanding

发现论文，激发创造

生成神经网络中的物理知识获取

根据物理理解为测试基准，通过深度生成神经网络的学习轨迹与儿童的发展轨迹进行比较，研究发现模型在两种假设下的学习轨迹均不符合儿童的发展轨迹。

Oct, 2023

通过梯度下降学习随机人口模型

从数据中学习机制模型的方法的发展是一个持续的努力，本文通过探索基于模拟的优化方法，讨论了参数估计与结构推断的挑战。

Apr, 2024

学习轨迹是概括指标

本文旨在探讨深度神经网络（DNNs）的学习轨迹与其在广泛使用的梯度下降和随机梯度下降算法优化时的相应泛化能力之间的关系。作者构建了线性逼近函数以建立轨迹信息模型，并基于其提出一种新的、基于更丰富轨迹信息的泛化界限。实验结果表明，所提出的方法能够有效地捕捉到不同训练步骤、学习率和标签噪声水平下的泛化趋势。

Apr, 2023

生物神经网络的学习基于随机梯度下降吗？一种使用随机过程的分析

通过研究生物神经网络中监督学习的随机模型，我们发现随机梯度下降法可能在优化生物神经网络中扮演角色。

Sep, 2023

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

梯度下降算法在统计和计算范式中的随机微分方程渐近分析

本研究探讨随机优化中梯度下降算法（尤其是加速梯度下降和随机梯度下降）的渐近行为，并建立了渐近分析的计算和统计统一框架。基于时间依赖奥恩斯坦 - 乌伦贝克过程等建立梯度流中心极限定理，最终识别学习率、批处理大小、梯度协方差和黑塞矩阵等四个因素，以解决非凸优化问题。

Nov, 2017

优化算法背后的物理系统

应用基于微分方程的方法，通过将优化算法与物理系统相联系的思想，研究如何分析梯度下降、坐标梯度下降、牛顿等算法及其加速变体在机器学习中的动态，此分析适用于更广泛的算法和优化问题，超越凸性和强凸性的限制。

Dec, 2016

最小二乘随机梯度下降的随机微分方程模型

我们研究了最小二乘问题的连续时间随机梯度下降（SGD）模型的动力学。我们通过分析随机微分方程 (SDE)，在训练损失（有限样本）或总体损失（在线设置）的情况下建模 SGD 来追求 Li 等人 (2019) 的研究成果。该动力学的一个关键特征是无论样本大小如何，都存在与数据完美插值器。在这两种情况下，我们提供了收敛到（可能退化的）稳态分布的精确非渐近速率。此外，我们描述了渐近分布，给出了其均值、与之偏差的估计，并证明了与步长大小有关的重尾现象的出现。我们还呈现了支持我们发现的数值模拟结果。

Jul, 2024

使用随机计算图估算梯度

通过引入随机计算图的形式化方法，该论文描述了如何自动推导损失函数梯度的无偏估计量，提出了一种计算梯度估计器的算法，从而统一了以前工作中推导的估算器和其中的方差减少技术，该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型，包括注意力、记忆和控制动作。

Jun, 2015

神经网络优化路径的简单几何

本研究探讨了神经网络中采样梯度沿优化路径的基本几何特性，发现这些特性在大多数训练期间保持稳定动态，并提供了线性收敛的理论保证和反映经验实践的学习率计划。

Jun, 2023