Oct, 2021

大学习率驯服同质性:收敛与平衡效应

TL;DR本文研究了在一个均匀的矩阵分解问题上使用大学习率的梯度下降(GD)算法,证明了在迭代收敛过程中该算法具有收敛性,同时还发现了 GD 算法在使用大学习率时存在的偏差,被称为 'data balancing',并提供数值实验支持我们的理论。