BriefGPT.xyz
Ask
alpha
关键词
adaptive gradient optimizers
搜索结果 - 3
AdAdaGrad:自适应梯度方法的自适应批次大小方案
通过使用自适应批次大小策略,引入了 AdAdaGrad 和 AdAdaGradNorm,在深度学习中展示了逐步批处理协议的提升适应性以及与自适应梯度优化器结合使用的自适应批次大小策略的潜力。
PDF
5 months ago
自适应梯度方法中是否可以去除平方根?一个二阶视角
去掉平方根的自适应方法能够改善在卷积架构上的泛化差异,同时保持其基于平方根的对应物在转换器上的性能,从而提出了二阶的视角来发展带有非对角线的自适应方法,它们不需要数值不稳定的矩阵平方根,在低精度下工作良好。
PDF
5 months ago
MM
弹弓机制:自适应优化器和领悟现象的实证研究
本文旨在通过一系列实证研究揭示 Grokking 现象的基础原理,并发现了一个被称为弹弓机制的适应性优化器优化异常,该异常是 Grokking 现象的一个显著表现。
PDF
2 years ago
Prev
Next