- LLaMA 模型中的动态激活陷阱:实证研究
我们对 LLaMA 系列语言模型中动态激活机制的功效进行了系统的调查,发现了当前动态激活方案存在的一些内在缺陷。通过对各种动态激活策略进行广泛的实验证明,与 ReLU 激活函数的对应模型相比,LLaMA 模型在要求高稀疏比率的场景中通常表现 - ProSparse: 大型语言模型中引入并增强内在激活稀疏性
本文介绍了一种名为 “ProSparse” 的有效稀疏化方法,通过将大型语言模型中的激活函数替换为 ReLU,并采用沿正弦曲线逐渐增加的因子的渐进稀疏正则化,实现了更高的激活稀疏性而不降低模型性能,从而提供了实际的推理加速。
- 利用线性初始化改进自编码器收敛速度和完全训练误差
通过引入 Straddled Matrix Initialiser 以及 ReLU 激活函数的组合,本文通过在三个数据集上的 autoencoder 实验验证了该初始化技术优于其他现有权重初始化方法的性能。
- 深且窄的前馈神经网络的改进权重初始化
通过引入新的权重初始化方法,本论文证明了所提出的初始权重矩阵的特性,展示了这些特性如何促进信号向量的有效传播,并通过一系列实验和与现有方法的比较展示了新的初始化方法的有效性。
- 对近似正交数据的两层 ReLU 和 Leaky ReLU 网络的梯度下降的隐式偏差
針對兩層完全連接的 (leaky) ReLU 神經網絡,研究梯度下降的隱含偏差,並證明梯度下降在訓練中會找到收斂於 1 的具有穩定排名的神經網絡,對於 ReLU 激活函數則收斂於一個上界常數,同時所有訓練數據點的標準化邊界漸進地相同。實驗結 - 超几何神经网络表示潜在树结构的容量界限
通过 ReLU 激活函数,我们研究了深度双曲神经网络(HNNs)的表示容量,证明了 HNNs 能够将任何有限加权树以 ε- 等度量嵌入到至少二维的带有给定曲率 κ<0 的双曲空间中,其中 ε>1(ε=1 时最优)。我们在实现嵌入的 HNN - 神经网络宽度的数据拓扑相关上界
本研究旨在探究深度神经网络的通用逼近性质与数据集拓扑特征之间的关系,并通过拓扑结构推导出限制网络宽度的上界。通过设计三层神经网络中的 ReLU 激活函数和最大池化操作,可以逼近一个由紧凑凸多面体包围的指示函数,同时拓展到单纯复合体,以拓扑空 - 使用深层 ReLU 网络近似非线性泛函
本文研究了与 ReLU 激活函数相关的功能深度神经网络的逼近能力,并在简单三角剖分下构建了连续分段线性插值。此外,还建立了所提出的功能深度 ReLU 网络的逼近速率,并在温和的正则条件下进行了分析,最终探究了功能数据学习算法的理解。
- 神经网络逼近
该篇论文调查了神经网络的近似性质,特别是使用 ReLU 激活函数的非线性流形,并比较了这种近似方法与传统数值分析中使用的近似方法之间的差异,着重分析了数值稳定性问题,发现在一定程度上提高了近似能力,但以数值稳定性为代价。
- 训练深度为 2 的 ReLU 网络的紧硬度结果
本文研究基于 ReLU 激活函数的深度 2 神经网络在训练上的困难性,并证明了最小化给定训练集的二次损失函数下的权重和差异生成问题、K 个 ReLU 加权求和问题在现实情况下均为 NP 难问题;同时还针对该问题提出算法时间下限并进行上界分析 - 平滑对抗训练
通过仔细的研究我们提出了一种新的平滑对抗训练方法,其中我们用其平滑逼近替代了 ReLU 激活函数以增强对抗训练的鲁棒性,并且相比于传统方法,该方法在不引入额外计算成本的情况下,能够显著提高模型的鲁棒性,同时保持模型的准确率。
- 神经网络中 ReLU 激活函数和 Softmax 输出层的逼近性能研究
该研究论文扩展了通用近似理论,说明了使用 ReLU 激活函数和非线性 softmax 输出层的神经网络能够以任意精度逼近任何在 L1 空间中的函数,并且可用于解决实际的多类别模式分类问题中。此外,这是 softmax 输出层在神经网络中用于 - 深度神经网络分类的快速收敛速率
本文研究使用 hinge loss 训练的 ReLU 激活函数的深度神经网络分类器的快速收敛速率,并通过数值研究比较了 hinge loss 和交叉熵作为损失函数时的效果。
- 随机梯度下降优化超参数化的深度 ReLU 网络
研究如何使用 ReLU 激活函数、梯度下降和随机梯度下降来训练深度神经网络,证明在一定条件下,充分的随机权重初始化能够让这些方法在超参数化的深层 ReLU 网络上达到全局最小值。
- 训练 ReLU 神经网络的复杂度
本文探讨了采用 ReLU 激活函数训练神经网络的复杂度问题,研究表明在神经元构架固定的情况下,两层 ReLU 神经网络的训练是 NP - 难问题,但在第一隐藏层提供足够的超参数时,可以通过多项式时间算法找到合适的权重。
- 基于路径范数的 ReLU 神经网络容量控制
提出一种基于一组线性独立路径的新范数,用于更准确地衡量神经网络的容量,在基于此范数的正则化方法下获得更好的测试性能。
- 梯度下降量化 ReLU 网络特征
研究深度神经网络在过度参数化的情况下训练的现象,发现在网络具有小初值和学习率的假设下,权重向量趋向于集中在少量由数据决定的方向,这使得对于给定的输入数据,网络大小独立,只能得到有限数量的函数
- ICLR卷积滤波器何时易于学习?
通过随机梯度下降算法和 ReLU 激活函数,我们分析了卷积滤波器的收敛性。我们的研究不依赖于任何特定形式的输入分布,证明了基于梯度的算法在多项式时间内可以学习卷积滤波器,且收敛速度取决于输入分布的平滑度和卷积核的密度。此理论证明了深度神经网 - 使用具有 ReLU 激活函数的深度神经网络进行非参数回归
使用基于稀疏连接 ReLU 激活函数的深层神经网络,通过适当选择网络结构实现多变量非参数回归模型的极小极限 (最优) 收敛速率 (最多出现 $log n$- 因子),同时为多层前馈神经网络表现良好提供理论解释,并表明在不用结构约束的情况下, - 分段线性神经网络的近乎紧凑 VC 维度和伪维度限制
本文证明了深度神经网络中使用 ReLU 激活函数的 VC 维度上下界,并提供了具有不同 VC 维度的示例。此外,本文还证明了 VC 维度与权重和非线性单元数量之间存在紧密的关系,这些结论适用于任意分段线性激活函数。