- 非可微对神经网络训练的三种影响
非可微性对神经网络训练过程的三个方面产生了影响。我们首先分析具有 ReLU 激活函数的全连接神经网络,结果显示连续可微的神经网络收敛速度更快。接下来,我们分析 $L_{1}$ 正则化问题,并展示深度学习求解器产生的解即使对于 $L_{1}$ - 学习浅层网络的更快更简单算法
我们研究了学习从标准的 d 维高斯度量中绘制的带有标签的示例的 k 个 ReLU 激活的线性组合的问题。我们发现了一个简化的一阶段版本的算法,其运行时间只有 (d/ε)^O (k^2)。
- 通过舒尔多项式高效学习一层 ReLU 网络
本研究旨在研究使用标准高斯分布下的 ReLU 激活函数的线性组合进行 PAC 学习的问题,并提出了一种具有高效样本和计算复杂度的算法,其复杂度接近于相关统计查询算法类中的最优复杂度。该算法使用张量分解识别出一个子空间,使其在正交方向上的所有 - 近似最大值需要多少个神经元?
我们研究了神经网络在逼近连续分布下基于 $L_2$ 范数、使用 ReLU 激活函数的最大函数时所需的大小,提供了对逼近所需宽度的新的上下界,建立了深度 2 和 3、深度 3 和 5 网络之间的新深度分界,并且通过在广泛使用的 max 函数上 - MM使用 ReLU 激活函数的图神经网络初始化和架构选择原则
本文提出了三个初始化和架构选择原则的验证,在有限宽度图神经网络(GNN)和 ReLU 激活下,通过证明得出使用 He-initialization,并在初始时使用残差聚合运算符和残差连接的实践可以显著提高深度 ReLU GNN 在各种任务上 - 通过锐度方法强化单个神经元的学习
研究单个神经元面对对抗标签噪声情况下的 $L_2^2$ 损失学习问题。提出了一种高效算法,适用于广泛的激活函数族,包括 ReLU,并在远比之前工作更微弱的分布假设下近似最优 $L_2^2$ 误差,关键在于优化理论中局部误差界的一种新颖联系。
- MM学习窄的一层 ReLU 网络
我们提出了一个基于随机高阶矩张量收缩的多尺度算法,用于发现个别神经元。在学习由 $k$ 个 ReLU 激活的线性组合方面,该算法是首个在多项式时间内成功的,而且无需额外假设网络的正系数或隐藏权重向量的矩阵具有良好的条件数。
- 通过训练动态了解基于坐标的多层感知器的谱偏差
本研究通过梯度混淆,对基于坐标的多层感知器(coordinate-based MLP)中的谱偏差进行了研究,发现当表现能力受限时混淆程度增加,导致其收敛速度变慢,同时也发现了谱偏差降低时激活区域的特性。
- 在联邦学习中,由不诚实的中央服务器完美准确地推断会员身份
本篇研究介绍了一种针对 relu 激活函数的简单而有效的成员推理攻击算法,通过视觉分类任务对 MNIST、CIFAR10、CIFAR100 和 CelebA 数据集进行实证评估,结果表明,该方法能够在包含数千个样本的训练集中识别一个样本,并 - 从查询中高效学习任何一个具有单个隐层 ReLU 的网络
本研究基于黑盒访问网络,提出第一个多项式时间算法以学习任意单隐藏层神经网络激活函数,并在高斯测量意义下实现对原神经网络的低二次误差,即使在最坏情况网络下,算法仍保证良好的效率。
- 关于 ReLU 神经网络的深度下界
本研究使用混合整数优化、多面体理论、热带几何等技术探究神经网络单隐藏层能否学习到所有函数的普适逼近定理,为可表示函数的类提供了数学支持。同时,解决了 Wang 和 Sun (2005) 关于分段线性函数的一项猜想,并提出了表示具有对数深度函 - AAAIGAN 的稀疏感知归一化
本文提出了一种新的归一化方法(SAN),并通过大量实验证明,与现有的方法相比,SAN 能够在 GAN 的训练中取得更好的效果。SAN 考虑了稀疏性,并且在 ReLU 激活的卷积网络中特别有效,并且在图像到图像翻译任务中表现出更好的性能,并且 - ReLU 网络在核区域中的深浅等效性
本文研究深度全连接网络从可近似角度看与其两层浅神经网络等价,表明其泛化能力在某些方面受限于核函数框架,提出一种基于核函数的特征值分析方法。
- ICLRCNN 结构的隐式凸规则化:在多项式时间内优化二层和三层网络的凸优化
本研究提出了使用 ReLU 激活函数的卷积神经网络 (CNN) 的训练方法,并引入了确切的凸优化公式,其复杂度与数据样本数量、神经元数量和数据维数成多项式关系。特别是,我们开发了一个凸解析框架,利用半无限对偶性来获得两层和三层 CNN 体系 - MM大量随机矩阵乘积及深度神经网络中的梯度
研究随机矩阵的乘积,证明其对于任意固定向量的 2 范数的对数渐近于高斯分布,并将其应用于测量深度神经网络的激活函数 ReLU 下的梯度稳定性问题。
- AAAICNN-Cert: 一种有效的卷积神经网络稳健性认证框架
提出了一个可用于卷积神经网络的一般且高效的框架 CNN-Cert 以证明鲁棒性,它通过利用卷积层的特殊结构比现有算法快 17 倍到 11 倍,并且在获得相似或更好的证明上限和速度方面超越了最先进的算法。
- 深度学习的超参数化收敛理论
通过对大规模深层神经网络的优化方法的研究,我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。
- 关于训练循环神经网络的收敛速率
本文研究了如何在训练多层神经网络时,通过采用类局部搜索方法(如随机梯度下降)避免陷入不良局部最小值,在给定非凸非光滑结构的情况下,它们如何适应随机标签;研究了在神经网络中如何使用 ReLU 激活函数避免指数梯度爆炸或消失;通过构建扰动理论, - 通过最小,稳定和符号修正来解释神经网络判定
本文提出了一种新的算法,旨在生成最小、稳定、符号化的纠正输入,从而导致具有 ReLU 激活的神经网络改变其输出,并在三个神经网络模型上进行评估,证明其能够有效提高神经网络的精度。
- NIPS哪些神经网络架构会导致梯度爆炸和梯度消失?
我们对一个使用 ReLU 激活的随机初始化全连接网络 N 的梯度统计行为进行了严格分析,发现其输出输入 Jacobian 的平方条目的经验方差呈现简单依赖架构的常数 beta 的指数形式,该常数由隐藏层宽度的倒数之和组成,当 beta 很大