复杂分形可训练性边界可由微不可见的非凸性产生

Jun, 2024

复杂分形可训练性边界可由微不可见的非凸性产生

Complex fractal trainability boundary can arise from trivial non-convexity

Yizhou Liu

TL;DR通过研究梯度下降中的学习率与损失函数之间的关系，我们发现简单的非凸扰动可以导致分形可训练性边界，这一发现有助于更好地理解神经网络训练过程中的复杂行为，从而提高训练策略的一致性和可预测性。

Abstract

Training neural networks involves optimizing parameters to minimize a loss function, where the nature of the loss function and the optimization strategy are crucial for effective training. Hyperparameter choices,

neural networks loss function hyperparameter selection fractal trainability boundaries non-convexity

发现论文，激发创造

神经网络可训练性的边界是分形的

通过实验，我们发现神经网络的超参数边界在所有测试配置中在超过十个数量级的尺度上呈现分形特征。

Feb, 2024

关于分形维数作为泛化度量的局限性

深度学习中超参数化神经网络的泛化缺口、分形维度、持续同调维度、模型的双下降等方面进行了广泛的研究评估，通过观察发现，残差参数向量的 L2 范数与泛化缺口之间有更强的相关性。该研究为进一步探索分形几何、拓扑数据分析和神经网络优化之间的因果关系奠定了基础。

Jun, 2024

用类热噪声绘制神经网络景观的地形图

通过采用统计力学的方法，我们研究一个超参数全连接的神经网络分类任务的优化过程，发现该过程与热力学中的温度有类似的波动统计，确定了低误差区域为低维流形，且该维度由决策边界的附近数据点的数量控制，并解释了在高温下主要采样弯曲程度较大的地区的原因。

Apr, 2023

损失函数中存在奇异点

通过实验证明，随着数据集的规模增大，损失梯度的大小会形成一个奇点，梯度下降算法将迅速将神经网络接近该奇点，并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象，如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点，顶部子空间对学习的贡献很小，即使它构成了大部分梯度。

Jan, 2022

神经网络能量景观基本无障碍

研究发现，神经网络的能量场通常是平坦的，在极小值点之间存在足够的容量进行结构性变化，且每个极小值点至少有一个消失的 Hessian 特征值。

Mar, 2018

神经网络初始化中的金发女郎区域解构

这篇论文通过对深度学习模型的优化动力学进行全面分析，探讨了训练损失的二阶性质对模型的影响，特别关注了与高度可训练的初始点相关联的 “Goldilocks zone” 概念，提出了正曲率对深度网络的可训练性的重要性，并讨论了与模型自信度、初始损失和消失的交叉熵损失梯度等方面的关联。

Feb, 2024

高瑞德区间：走向更好的神经网络损失函数景观理解

通过在低维度的超平面和超球面上评估代价函数的海森矩阵，我们发现全连接神经网络和卷积神经网络的代价函数在它们的空间参数半径较大的固定范围内，具有异常的凸性和正曲率，此处我们称之为 “金发姑娘区间”，该效应与神经元网络的初始化方法，包括公共初始化技巧之间有着密切的关联。

Jul, 2018

神经损失景观的局部几何的新兴特性

本文通过实验和理论研究了神经网络的波动，发现高维神经网络的损失函数曲面具有多方向高正曲率、梯度下降具有狭窄、随机位于此曲面中不同位置处的超平面理论能够解释背后的机理。

Oct, 2019

利用堵塞转换理解深度神经网络的损失景观

研究表明，神经网络在过参数化区域存在相变点，且能够拟合随机数据的能力与深度无关，该相变点附近的损失函数具有层次结构且学习动态容易出现雪崩样的变化，可能导致学习的数据模式产生突变。

Sep, 2018

用梯度下降学习分形

本文介绍了一种通过梯度下降学习分形图像参数的方法，用于生成类似于目标图像的分形图像，此方法具有高可视品质的能力并且具备对不同损失函数的兼容性，为后续任务、科学理解等提供了多种应用潜力。

Mar, 2023