Oct, 2023

离线(多通道)随机梯度下降法中的近似重尾问题

TL;DR我们研究了随机梯度下降(SGD)在实际环境中可能展现出重尾行为,并且尾部的重度可能与整体性能有相关性。我们的贡献在于填补了单次通过(online)SGD和多次通过(offline)SGD之间在实际数据量有限情况下,生成重尾行为的机制仍不够清楚的空白。我们证明了离线SGD的稳态分布呈现了“近似”的幂律尾,并且近似误差由训练数据的经验分布在Wasserstein距离下收敛于真实潜在数据分布的速度所控制。随着数据点数量的增加,离线SGD行为将越来越类似于幂律分布。