Jun, 2024

Adagrad 在各向异性光滑下的大批量分析

TL;DR通过在大批量设置下对 Adagrad 进行新分析,证明了它在凸平滑目标和非凸平滑目标上不会因批量大小增加而收敛减慢,因此在大批量设置中仍然可以比 SGD 更快地实现收敛,进而解决了理论和实践之间的差距。