Oct, 2021
大学习率驯服同质性:收敛与平衡效应
Large Learning Rate Tames Homogeneity: Convergence and Balancing Effect
Yuqing Wang, Minshuo Chen, Tuo Zhao, Molei Tao
TL;DR本文研究了在一个均匀的矩阵分解问题上使用大学习率的梯度下降(GD)算法,证明了在迭代收敛过程中该算法具有收敛性,同时还发现了 GD 算法在使用大学习率时存在的偏差,被称为 'data balancing',并提供数值实验支持我们的理论。