Jun, 2023

面向极小化问题:超参数问题 SGD 的快速收敛

TL;DR本文提出在插值范式内的正则条件,使得随机梯度方法与确定性梯度方法具有相同的最坏迭代复杂度,同时仅在每次迭代中使用单个采样梯度(或一个小批量)。最后,我们证明了我们的条件在训练具有线性输出层的足够宽的前馈神经网络时成立。