weight decay | BriefGPT - AI 论文速递

关键词weight decay

搜索结果 - 26

神经网络激活函数的作用
本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关，进一步论述了 ReLU 等激活函数的重要性，解释了神经网络设计与训练策略如何影响其性能，并为路径范数正则化及跳连等策略提供了新的理论支持。
PDF5 years ago
使用逐层自适应动量的随机梯度方法用于深度神经网络的训练
本文提出了一种自适应随机梯度下降算法 NovoGrad，具有分层梯度归一化和分离的权重衰减，模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法 SGD 与 Adam（优化算法），同时具有较好的鲁棒性、适用于
PDF5 years ago
ICML批量归一化导致对抗性攻击性漏洞
研究表明，批量标准化在深度神经网络的训练中可以降低参数更新次数，但会导致对小型对抗性输入扰动和噪音的鲁棒性降低，同时使用权重衰减可以消除其对输入尺寸的影响。
PDF5 years ago
权重衰减正则化的三种机制
三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应：(1) 增加 effective learning rate；(2) r
PDF6 years ago
数据增强代替显式正则化
通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用，提出了数据增强对于提高深度学习泛化性能的显著贡献。因此，建议不要使用权值衰减和随机失活，而要更加关注数据增强和其他归纳偏差来优化神经网络。
PDF6 years ago
对抗训练与权重衰减
该研究旨在提升机器学习模型的稳健性，研究发现在包括未知扰动的情况下，权重衰减表现更佳，并结合对抗性训练实现较强的白盒攻击抵御能力。
PDF6 years ago