Jul, 2023

随机梯度下降的非凸优化中批处理大小与所需步数的关系

TL;DR随机梯度下降是最简单的深度学习优化器之一,该论文通过蒙特卡洛方法对其进行了收敛性分析,并证明了使用 Armijo 线搜索的随机梯度下降在非凸优化中的性能优于其他深度学习优化器,同时还发现了批量大小对训练的影响,批量大小越大,需要的步数越少,但在成本和梯度计算的角度,存在一个临界批量大小最能降低成本。