BriefGPT.xyz
Ask
alpha
关键词
stochastic optimizers
搜索结果 - 3
KrADagrad:克罗内克近似主导梯度预处理随机优化
该论文提出了一种新颖的矩阵分解方法 Kronecker Approximation-Domination (KrAD),用于直接近似实验 Fisher 矩阵的逆,避免了反转和 64 位精度,从而实现与 Shampoo 相似的计算成本和相同的
→
PDF
a year ago
ICML
大批量训练自动学习率调度器
本文提出了一种有效的 LR 调试算法,其中包括自适应的预热和预定义的衰减,通过高斯过程平滑的在线检查方法可以有效地训练具有大批次大小的神经网络。
PDF
3 years ago
ICLR
大批次训练的并发对抗学习
本研究提出使用对抗学习 (adversarial learning) 技术来增加大批量训练 (large-batch training) 的批量大小,以克服随着批量大小的增加而降低的数据增强表现的问题,并通过 Concurrent Adve
→
PDF
3 years ago
Prev
Next