Dec, 2018

大批量训练的实证模型

TL;DR本文研究使用仅依赖梯度的统计量(gradient noise scale)来预测各种深度学习模型中最适合的batch size的大小,结果表明该参数可以在很多领域都适用,包括监督学习数据、强化学习领域以及生成模型训练。