- 判定 ReLU 神经网络的单射性和满射性的复杂度
对于具有 ReLU 激活的神经网络的验证,本研究表明了判断单层 ReLU 层的单射性是 coNP 完备问题,但提出了一个基于参数化算法,使得问题相对于输入维度具有固定参数可跟踪性,并且表征了具有一维输出的两层 ReLU 网络的满射性问题与基 - AAAI通过移除 GELU 激活函数加速整数 SWIN Transformer 的推断
通过移除 SWIN Transformer 中的 GELU 激活,并用 ReLU 激活代替,我们使用迭代式知识蒸馏方法,在保持准确度下降低于 0.5% 的同时,至少提高了 11% 的量化 SWIN Transformer 的推理延迟。
- ReLU 反击:在大型语言模型中利用激活稀疏性
这篇论文研究了大语言模型在资源受限设备上推断计算中的挑战与改进方法,通过重新引入 ReLU 激活函数并探索其稀疏模式,作者提出了一种实用的策略,可以显著减少推断计算量,达到三倍的性能提升。
- ICML神经多面体
简单的神经网络使用 ReLU 激活可以在各种维度中产生单元球近似的多面体,其种类受网络体系结构的调节,此发现开创了通过机器学习进行离散几何研究的新领域,同时也可以用于训练网络的可视化。
- 信息瓶颈理论的法官
本研究对信息瓶颈理论的应用进行了探讨,通过引入辅助函数和采取新的理论立场,解决了该理论在深度学习网络中的应用问题,并解释了 ReLU 激活下归零情形的信息瓶颈机制,从而提供了一种新的解读深度学习网络内部组织的方法。
- CVPR基于海明相似度与图拉普拉斯算子进行类别划分及对抗性图像检测
本文基于深度神经网络层次输出的矩阵,使用基于比特向量的表示方法,通过计算相似度分数矩阵建立图像集分离分类,并验证该方法对于神经网络研究及灵敏相似度分析的可行性。
- BN 与 ReLU 之间的不协调导致梯度爆炸,但被激活之间的相关性所抵消
讲述了基于批归一化和 ReLU 的深度神经网络存在于训练早期不稳定的情况,提出了更好的适应性学习率算法来替代现有的学习率缩放方法,该算法在大批量训练中表现优于现有方法。
- 深度神经网络逼近复合函数的无维度诅咒
本文发现使用修正线性单元(ReLU)激活的深度神经网络(DNNs)可以近似表示一类高维连续函数,其参数数量与输入维度和近似误差的多项式规模相同,该类函数由多个特殊函数的组合表示,包括乘积,最大值和某些并行的 Lipschitz 连续函数。
- 人工神经网络逼近某些平滑有界函数类的必要深度,无须维数灾难
本文研究了使用 ReLU 激活的浅层和深层人工神经网络的高维逼近能力,并且证明了使用深层 ReLU 人工神经网络可以解决简单逼近问题,而不能在多项式时间复杂度下使用浅层或不够深度的人工神经网络来解决。
- 一个基于信息理论的监督学习框架
本文提出了一种新颖的信息论框架,用其自己的遗憾和样本复杂度分析机器学习的数据需求,并用该框架研究了由具有 ReLU 激活单元的深度神经网络生成的数据的样本复杂度,并在权重的特定先验分布下建立了同时独立于宽度和线性深度的样本复杂度界限。
- ICML关于过拟合两层神经切向核模型的泛化能力
本文研究具有 ReLU 激活函数且没有偏差项的两层神经网络的神经切向核(NTK)模型的 min(L2)-norm 过拟合解的泛化性能,并显示随着神经元数目 p 的增加,测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的 “双 - 过参数神经网络优化算法的动力学视角
本研究通过分析神经网络与算法优化之间的关系,探讨了近期许多工作都关注的神经网络损失动态问题,证明了在 ReLU 激活函数下,NAG 算法可能只是以次线性的速度达到全局最小值,结果表明优化非凸性损失函数实际是在对预测误差进行优化最优化问题。
- 超参数化的两层 ReLU 神经网络学习研究:从 NTK 出发
本文研究采用梯度下降算法学习双层神经网络,证明其具有多项式样本和多项式时间复杂度,且可以学习到真实网络,而任何具有多项式样本的核方法均具有 Omega 误差下限。
- 超参数对抗训练:克服维数灾难的一种分析
采用 ReLU 激活函数和多项式宽度网络,在自然条件下实现对抗性训练的收敛理论,且证明了近似阶跃函数的 ReLU 网络有独立兴趣。
- 使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优 - ICML深层门控网络:深度学习训练和泛化的框架理解
通过深门控网络作为框架,理论分析和实验验证了几种 DGNs 变体,阐述了深度神经网络的训练和泛化方面的问题,着重讨论了为什么增加深度能帮助训练到一定程度,而增加深度会伤害训练,以及证明了门控自适应在泛化中的关键作用。
- 具有阈值和 ReLU 激活函数的神经网络的记忆容量
本文探究神经网络模型,证明了具有 sigmoid 或 ReLU 激活函数的过度参数化的模型在训练数据超过一定数量后,具有百分之百的记忆能力。
- 逐层反转深度生成模型
本文研究在 ReLU 激活的深度生成模型中,通过解决线性规划问题进行单层反演,证明了多层反演是 NP 难问题,提出了可在多项式时间内进行精确恢复的算法,并为恢复嘈杂观测提供了可证明的误差界限。
- 通过过度参数化将神经网络嵌入半扁平极小点和鞍点
本文理论研究了过参数化情况下神经网络的训练误差,考虑了将网络嵌入更宽的网络中的三种方法,并讨论了更窄的网络的最小点是否会成为更宽网络的最小点或鞍点。我们的结果表明,具有平滑和 ReLU 激活的网络在嵌入点周围具有不同程度的平坦区域。我们还将 - ICML卷积神经网络中的隐式滤波器稀疏化
研究发现,在采用批归一化和 ReLU 激活以及使用自适应梯度下降技术和 L2 正则化或权值衰减训练的卷积神经网络中,存在着隐式过滤器级别稀疏性,这可能与某些在文献中提出的过滤器稀疏化启发式的特定联系有关。进一步观察表明,特定功能的出现和随后