Mar, 2018

神经网络超参数的纪律性方法:第 1 部分 —— 学习速率、批量大小、动量和权重衰减

TL;DR本文介绍了几种有效的设置超参数的方法,以显著减少训练时间并提高性能。具体来说,报告展示了如何检查训练验证 / 测试损失函数以获取欠拟合和过拟合的微妙线索,并提供了朝向最佳平衡点的指南。同时还讨论了如何增加 / 减少学习率 / 动量以加速训练,并解释了如何在每个数据集和架构的所有正则化之间保持平衡的重要性。本文的实验表明,使用权重衰减作为示例正则化器,其优化值与学习率和动量密切相关。