BriefGPT.xyz
Ask
alpha
关键词
adaptive optimization methods
搜索结果 - 4
SGD 在高维度中的梯度剪裁动力学
通过研究剪裁在流式随机梯度下降中的应用,发现剪裁在某些噪声环境中可以提供性能优势,并讨论了高维剪裁与神经网络训练之间的联系。
PDF
19 days ago
SANIA:Polyak 类型优化框架导致尺度不变的随机算法
SANIA 是一个优化框架,通过自适应优化方法和预条件方法,解决了在训练深度神经网络中需要手动微调步长和处理问题缩放或病态的挑战。在分类任务中,包括凸和非凸情境下进行了广泛实证研究。
PDF
6 months ago
由 Adam 优化器转为 SGD 优化器提升泛化性能
提出一种混合方法 SWATS 进行训练,开头使用自适应方法 Adam,后期如果符合一定条件则切换至 SGD。实验证明,SWATS 能够缩短自适应方法和 SGD 之间的泛化差距,在多数任务上表现良好。
PDF
7 years ago
机器学习中自适应梯度方法的边际价值
本文研究了使用自适应优化方法训练深度神经网络的表现,提出了一些简单超参数问题,发现自适应方法得到的结果往往比梯度下降方法差,甚至可能导致结果更糟糕,建议实践者重新考虑使用自适应方法训练神经网络。
PDF
7 years ago
Prev
Next