BriefGPT.xyz
Ask
alpha
关键词
weight decay
搜索结果 - 26
神经网络激活函数的作用
本文通过样条理论的角度展示了神经网络训练问题与函数的 Banach 空间有关,进一步论述了 ReLU 等激活函数的重要性,解释了神经网络设计与训练策略如何影响其性能,并为路径范数正则化及跳连等策略提供了新的理论支持。
PDF
5 years ago
使用逐层自适应动量的随机梯度方法用于深度神经网络的训练
本文提出了一种自适应随机梯度下降算法 NovoGrad,具有分层梯度归一化和分离的权重衰减,模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法 SGD 与 Adam(优化算法),同时具有较好的鲁棒性、适用于
→
PDF
5 years ago
ICML
批量归一化导致对抗性攻击性漏洞
研究表明,批量标准化在深度神经网络的训练中可以降低参数更新次数,但会导致对小型对抗性输入扰动和噪音的鲁棒性降低,同时使用权重衰减可以消除其对输入尺寸的影响。
PDF
5 years ago
权重衰减正则化的三种机制
三个 optimization algorithms (SGD、Adam 和 K-FAC) 使用 weight decay 有三种 regularization 效应:(1) 增加 effective learning rate;(2) r
→
PDF
6 years ago
数据增强代替显式正则化
通过研究比较权值衰减、随机失活和数据增强等正则化技术在深度学习中的作用,提出了数据增强对于提高深度学习泛化性能的显著贡献。因此,建议不要使用权值衰减和随机失活,而要更加关注数据增强和其他归纳偏差来优化神经网络。
PDF
6 years ago
对抗训练与权重衰减
该研究旨在提升机器学习模型的稳健性,研究发现在包括未知扰动的情况下,权重衰减表现更佳,并结合对抗性训练实现较强的白盒攻击抵御能力。
PDF
6 years ago
Prev
Next