利用景观设计学习一层神经网络

Nov, 2017

Learning One-hidden-layer Neural Networks with Landscape Design

Rong Ge, Jason D. Lee, Tengyu Ma

TL;DR本研究考虑学习一层隐藏层神经网络，通过高斯分布输入和低秩张量分解来优化非凸目标函数，利用随机梯度下降法可以证明收敛于全局最小值，并通过模拟实验证实。

Abstract

We consider the problem of learning a one-hidden-layer neural network: we assume the input $x\in \mathbb{R}^d$ is from gaussian distribution and the label $y = a^\top \sigma(Bx) + \xi$, where $a$ is a nonnegative

neural network gaussian distribution low-rank tensors non-convex objective function stochastic gradient descent

发现论文，激发创造

深度学习算法概览

这篇论文通过理论分析神经网络的收敛行为、稳定点及特性研究其经验风险的实证风险的景观，证明线性神经网络的实证风险在训练样本量为 n、总权重维数为 d、每层权重的度量边界为 r 时，具有一致收敛到其总体风险的速率。深度非线性神经网络的实证风险的收敛行为、梯度和非退化稳定点的特性也得到分析。

May, 2017

深度学习泛化理解：损失景观的视角

研究表明，深度神经网络模型具有很好的泛化能力，其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。

Jun, 2017

神经网络的全球概览

本文回顾了关于神经网络全局和局部损失函数的广泛研究，重点探讨了在某些假设下宽神经网络可能存在亚优局部最小值的性质以及一些修改方法，并讨论了实际神经网络的可视化和经验探索，最后简要讨论了一些收敛结果及其与全局和局部损失函数相关的关系。

Jul, 2020

两层神经网络格势的均场视角

本论文在研究多层神经网络的优化问题，发现随机梯度下降算法会收敛到一个全局最优点，且这一点具有很好的泛化能力。结果表明，适当的尺度下，随机梯度下降动态可以通过某个非线性偏微分方程捕捉，从而证明了 SGD 的收敛性。

Apr, 2018

过参数非线性系统和神经网络中的损失景观和优化

本文提出了一种现代观点和一般性的数学框架，用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化，其中包括超参数深度神经网络，并说明这些系统的 PL$^*$ 条件密切相关，这解释了（S）GD 对全局最小值的收敛，并提出了一个放松 PL$^*$ 条件的方法可应用于几乎超参数系统。

Feb, 2020

超参数神经网络的损失景观

本文研究过参数神经网络的损失函数的数学特性，证明了当神经网络的参数数目大于数据点数目时，全局最小值点的集合通常是一个高维子流形。

Apr, 2018

神经网络损失函数的大尺度结构

本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性，其中高维度发挥了关键作用，通过将损失函数的空间看作是一系列高维楔形图的集合，揭示了优化算法收敛过程的内在规律，最终还研究了一些深度网络的集成技术。

Jun, 2019

大学习率训练的不稳定性：一个损失景观视角

该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵，研究了损失函数空间，揭示了梯度下降的不稳定性，且观察到了景观平坦化和景观移位的引人注目现象，这两者与训练的不稳定性密切相关。

Jul, 2023

景观替代品：在部分信息下学习数学优化的决策损失

通过使用可学习的景观代理（Landscape Surrogate）作为优化器的替代品，可以在学习集成优化中加速优化过程，提供相对稠密和平滑的梯度，在合成问题和真实世界问题中实现优化目标，同时降低对优化器的调用次数，并在计算复杂度高的高维问题上优于现有方法。

Jul, 2023

使用随机初始化学习半空间和神经网络

研究非凸经验风险最小化法，通过多次随机初始化加优化步骤实现学习半空间和神经网络，并证明了学习数据以大于零的常数保持可分的神经网络的可学习性质，以及数据标签随机翻转的情况下的学习结果。

Nov, 2015