Jun, 2023

超越隐性偏见: SGD 噪声在在线学习中的无关性

TL;DR通过对图像和语言数据的广泛实证分析,我们表明在在线学习中,大的学习速率和小的批次大小并不能为 SGD 带来任何隐式偏差优势。