May, 2024

优化学习率和批次大小缩放中的涌现现象

TL;DRAdam style 优化器中,最佳学习率和批量大小之间存在一种缩放规律,通过理论分析和实验验证了这种规律。