机器学习中的黑洞和损失地貌

Jun, 2023

Black holes and the loss landscape in machine learning

Pranav Kumar, Taniya Mandal, Swapnamay Mondal

TL;DR本文研究机器学习中的损失函数问题，发现黑洞的熵与网络中的损失函数形成类似的能量景观，提供微观描述黑洞的潜在能量景观，估算随机梯度下降能找到大部分的极小值。

Abstract

Understanding the loss landscape is an important problem in machine learning. One key feature of the loss function, common to many neural network architectures, is the presence of exponentially many low lying loc

loss landscape neural network black holes entropy stochastic gradient descent

发现论文，激发创造

神经损失景观的局部几何的新兴特性

本文通过实验和理论研究了神经网络的波动，发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。

Oct, 2019

深度学习泛化理解：损失景观的视角

研究表明，深度神经网络模型具有很好的泛化能力，其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。

Jun, 2017

神经网络损失函数的大尺度结构

本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性，其中高维度发挥了关键作用，通过将损失函数的空间看作是一系列高维楔形图的集合，揭示了优化算法收敛过程的内在规律，最终还研究了一些深度网络的集成技术。

Jun, 2019

利用堵塞转换理解深度神经网络的损失景观

研究表明，神经网络在过参数化区域存在相变点，且能够拟合随机数据的能力与深度无关，该相变点附近的损失函数具有层次结构且学习动态容易出现雪崩样的变化，可能导致学习的数据模式产生突变。

Sep, 2018

损失地形的曲率研究

通过分析嵌入的黎曼流形的微分几何性质，我们研究了损失景观，并展示了与潜在推理相关的几个设置之间的联系。

Jul, 2023

神经网络的损失函数可视化

本文通过可视化方法探讨神经网络损失函数的结构和损失景观对泛化的影响，提出了一种简单的 “滤波器归一化” 方法来可视化损失函数曲率并对损失函数进行有意义的比较。然后，利用各种可视化方法，探索网络结构如何影响损失景观，以及训练参数如何影响最小化器的形状。

Dec, 2017

超参数神经网络的损失景观

本文研究过参数神经网络的损失函数的数学特性，证明了当神经网络的参数数目大于数据点数目时，全局最小值点的集合通常是一个高维子流形。

Apr, 2018

大学习率训练的不稳定性：一个损失景观视角

该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵，研究了损失函数空间，揭示了梯度下降的不稳定性，且观察到了景观平坦化和景观移位的引人注目现象，这两者与训练的不稳定性密切相关。

Jul, 2023

神经网络的全球概览

本文回顾了关于神经网络全局和局部损失函数的广泛研究，重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法，并讨论了实际神经网络的可视化和经验探索，最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。

Jul, 2020

利用景观设计学习一层神经网络

本研究考虑学习一层隐藏层神经网络，通过高斯分布输入和低秩张量分解来优化非凸目标函数，利用随机梯度下降法可以证明收敛于全局最小值，并通过模拟实验证实。

Nov, 2017