神经网络训练的计算效率

Oct, 2014

On the Computational Efficiency of Training Neural Networks

Roi Livni, Shai Shalev-Shwartz, Ohad Shamir

TL;DR本研究从现代角度重新审视了训练神经网络的计算复杂性，提供了一些可证明高效的实用算法来训练某些类型的神经网络。

Abstract

It is well-known that neural networks are computationally hard to train. On the other hand, in practice, modern day neural networks are trained efficiently using →

neural networks sgd activation functions over-specification regularization

发现论文，激发创造

深度学习优化：理论与算法

本文介绍了用于训练神经网络的优化算法、如何应对梯度消失等问题的解决方案、广义优化方法（如 SGD、自适应梯度方法和分布式方法）以及神经网络训练中的全局问题。

Dec, 2019

神经网络学习复杂性

本文研究神经网络的理论解释，针对单个隐藏层、平滑激活函数和良好输入分布条件下生成的数据可否进行有效学习，证明了对于广泛的激活函数和任何对数凹分布的输入，存在一类单隐藏层函数，其输出为和门，难以以任何精度有效地学习，这一下界对权重的微小扰动具有鲁棒性，且通过实验验证了训练误差的相变现象。

Jul, 2017

定性描述神经网络优化问题

本文通过分析，发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务，并且能够克服局部最优解的困难。

Dec, 2014

通过次线性激活神经元识别来实现高效 SGD 神经网络训练

本文提出了基于静态半空间报告数据结构的神经网络训练方法，通过几何搜索实现亚线性时间的激活神经元识别，并证明该算法可以在 O (M^2/ε^2) 的时间内收敛，其中 M 是系数范数上限，ε 是误差项。

Jul, 2023

训练 ReLU 神经网络的复杂度

本文探讨了采用 ReLU 激活函数训练神经网络的复杂度问题，研究表明在神经元构架固定的情况下，两层 ReLU 神经网络的训练是 NP - 难问题，但在第一隐藏层提供足够的超参数时，可以通过多项式时间算法找到合适的权重。

Sep, 2018

神经网络训练与 ETR 的复杂度：有效连续函数扩展

本文研究了使用不同激活函数定义的神经网络的训练问题的复杂性，证明了 sigmoid 激活函数导致的训练问题多项式时间可约化到存在性理论中，但是对于正弦激活函数的训练问题是不可判定的，并给出了限制条件下的训练问题的复杂性的上界。

May, 2023

正则化压缩神经网络的学习

研究了深度神经网络的正则梯度下降算法，并通过量化约束集合的复杂度以及研究覆盖维度来探索正则化技术在加速训练、提高泛化性能以及学习更高效紧凑模型方面的优势。

Feb, 2018

激活函数对超参数化神经网络训练的影响

研究论文探讨了激活函数对过度参数化神经网络训练的影响，指出了平滑的激活函数在训练中的优势和尺寸较小的数据维度可能导致训练速度变慢的问题，并讨论了这些结果的应用和推广。

Aug, 2019

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

神经网络的实际灵活性如何？

神经网络对数据的拟合能力的研究发现，标准优化算法找到的最小值只能适应参数比样本数量少很多的训练集，卷积网络比多层感知机和视觉注意力变换模型更有效，随机梯度下降在拟合训练集方面比全批量梯度下降更好，对于正确和错误标记样本的拟合能力差异可以预测泛化性能，ReLU 激活函数能找到更多的数据拟合最小值尽管旨在避免深层神经网络中的梯度消失和梯度爆炸。

Jun, 2024