学习大型复杂模型的相对自然梯度
本文通过神经动力学方法研究随机连接网络中的 Fisher 信息矩阵,证明了其为逐元素块对角矩阵并附带少量非块对角元素小量项,为 Y. Ollivier 的准对角自然梯度法提供了理论依据,并成功地推导出 Fisher 信息的逆矩阵,从而得到了显式的自然梯度形式,极大地加速了随机梯度学习。
Aug, 2018
从不变性观点研究深度神经网络的几何和容量度量之间的关系,引入了具有期望不变性的 Fisher-Rao 范数作为新的容量概念,并发现了其分析特征和规范比较不等式,证明了其作为多种基于范数的复杂度度量的伞兵角色,讨论了引入新的度量方式对泛化误差的影响,使用 CIFAR-10 数据集的大量数值实验支持了理论分析的发现,研究的分析基于多层整流器网络局部导数的关键结构引理。
Nov, 2017
本文提出基于观测到的 Fisher 信息的指标,既可以强烈地指示本地极值的通用性,又可以作为实用正则化器有效地应用,经过理论和实验分析证明该方法成功地捕捉和改善了深度神经网络的泛化能力。
Nov, 2019
利用人工神经网络和信息理论模型的非模型化特点,实现不需要系统的先验知识,识别重要的物理自由度,并演示自然系统中的重要且普遍存在的学习算法。通过对经典统计物理的问题在一维和二维的应用,演示了 RG 流和提取的 Ising 临界指数。说明了机器学习可以提取抽象的物理概念,并成为理论建模的一个重要组成部分。
Apr, 2017
应用信息几何框架研究人工神经网络(ANN)训练过程中的相变行为与过拟合之间的关联,通过研究 ANN 参数的概率分布,利用差分几何原理构建概率分布函数的黎曼流形,观察到 ANN 在训练过程中在流形上的运动发生相变,该相变与 ANN 模型的过拟合有数学上的相似性,为增强 ANN 的解释能力和可解释性提供了有用的工具。
Jun, 2024
本文介绍了一种基于量子信息几何的图卷积网络模型,通过对图的扰动进行特征分解,找到一个有效的扰动方向以改进半监督节点分类任务性能,同时提出了三种不同的图形式学几何,从而提高对图神经网络的理解和发展新技术。
Mar, 2019
研究发现:在计算深度神经网络(DNNs)的特性时,用 Fisher 信息矩阵(FIM)是一个普遍存在的策略。我们使用随机权重和大宽度限制来研究 FIM 的渐近统计特性,并证明说大部分特征值接近于零,而其中的最大特征值则取一个巨大的值。此外,我们探讨了这些新的统计特征数字在学习策略中的潜在使用,即可以量化估算出适当的学习率和我们的广义能力测量的基础。
Jun, 2018
本文介绍了四种用于神经网络训练的算法,它们分别适用于不同的可扩展性限制。这些算法基于微分几何的理论,并基于自然梯度使用 Fisher 信息矩阵,或基于 Hessian 方法并缩小尺度以实现可扩展性,同时保持它们的一些关键数学性质。
Mar, 2013