Jun, 2024

在线学习与信息指数:关于批次大小和时间 / 复杂度权衡的重要性

TL;DR通过研究在具有各向同性协变量的多指标目标函数上使用一遍随机梯度下降法(SGD)训练两层神经网络的迭代时间和批次大小之间的影响,我们揭示了最佳批次大小对于缩短迭代时间的优化函数,同时不改变总样本复杂性,并通过 “相关损失 SGD” 来克服此基本限制。