深度 CNN 的优化景观与表达能力

ICMLOct, 2017

Optimization Landscape and Expressivity of Deep CNNs

Quynh Nguyen, Matthias Hein

TL;DR研究了使用共享权重和最大池化层的实用深度卷积神经网络的损失景观和表现力，发现这些 CNN 在宽层处可以产生线性独立特征，研究了获得零训练误差的全局最小值所需的必要和充分条件，分析表明，深度和宽度都很重要，宽度可以使损失函数具有很好的性质。

Abstract

We analyze the loss landscape and expressiveness of practical deep convolutional neural networks (CNNs) with shared weights and max pooling layers. We show that such CNNs produce linearly independent features at a "wide" layer which has more neurons than the number of training samples.

deep convolutional neural networks shared weights max pooling layers wide layer global minima

发现论文，激发创造

深且宽神经网络的损失曲面

本文研究完全连接网络的优化问题，发现在具有金字塔结构、使用平方损失函数和分析激活函数的情况下，只要网络每层隐藏单元数大于训练点数，几乎所有的局部最小值都是全局最优解。

Apr, 2017

深度和宽度对深度学习局部最优解的影响

本文通过分析深度和宽度对局部极小值质量的影响，论证了在没有强烈的过参数化和简化假设的情况下，深度神经网络的局部极小值质量随着深度和宽度的增加而趋向于改善，并且在带有局部引导结构的深层非线性神经网络模型中，其局部最小值的值在理论上被证明不会比相应的经典机器学习模型的全局最优值差。

Nov, 2018

深度学习泛化理解：损失景观的视角

研究表明，深度神经网络模型具有很好的泛化能力，其优秀的泛化能力是来自于损失函数的加权局部最小值及其优化方法。

Jun, 2017

关于训练图卷积网络深度的可证明优势

本文针对图卷积网络（GCNs）在层数增多时表现下降的问题进行了研究，发现合理训练后更深的模型具有极高的训练准确性，但泛化能力较差。通过分析 GCNs 的泛化能力，本文提出了一种解耦结构，使得 GCNs 既能保留表达能力，又能保证较好的泛化性能。各种合成和真实数据集的实证评估证实了这一理论。

Oct, 2021

具任意损失函数的深度线性神经网络：所有的局部极小都是全局极小

本研究考虑使用深度线性网络进行任意凸可微损失的最小化，证明了当隐藏层宽度大于等于输入层或输出层时，局部最小值等价于全局最小值，若损失函数为凸且 Lipschitz 连续但不可微，则深度线性网络可能存在次优解。

Dec, 2017

神经网络损失函数的大尺度结构

本文通过一个统一的现象学模型来解释深度神经网络优化过程中的一些令人惊讶、或者说是违反直觉的特性，其中高维度发挥了关键作用，通过将损失函数的空间看作是一系列高维楔形图的集合，揭示了优化算法收敛过程的内在规律，最终还研究了一些深度网络的集成技术。

Jun, 2019

深度学习中的经验风险景观 II

这项研究以理论和实验相结合的方式，对超参数化的 DCNN 的经验风险进行了表征，并提出了一个关于 DCNN 经验损失面的直观模型。

Mar, 2017

完全卷积网络优化空间的可视化洞察

本文通过可视化优化地形图，比较了三个基于 FCN 的模型在多个数据集上的性能，并探索了 FCN 中跳过层连接与模型广义能力之间的关系，以及不同批量大小下的损失表面与模型广义能力的关系。

Jan, 2019

深度卷积网络中归纳偏见的理论分析

本文研究卷积神经网络中的归纳偏差，证明了一定深度下 CNN 可以进行连续函数的逼近以及 CNN 具有吸收长距离稀疏相关性的能力，并通过对称性分析证明权重共享与局部性对学习的重要性。

May, 2023

深度神经网络的全局最优条件

该论文研究了使用平方误差损失函数的深度线性和非线性神经网络的误差景象。对于深度线性神经网络，研究者提出了必要和充分条件，以判断风险函数的一个临界点是否为全局最小值，并且这些条件提供了一种高效检查全局最优性的方法。论文还将这些结果扩展到深度非线性神经网络，并在更有限的函数空间设置中证明了类似的充分条件。

Jul, 2017