Mar, 2024

无验证的调参:在训练集上搜索学习率和权重衰减

TL;DR通过 Tune without Validation(Twin)管道,我们介绍了一种可以在没有验证集的情况下调整学习率和权重衰减的方法。我们利用最近关于假设空间中学习阶段的理论框架来设计一种启发式算法,该算法可以预测哪些超参数组合能够获得更好的泛化效果。通过网格搜索和早停 / 非早停调度器,Twin 在训练损失方面提供最佳结果的区域中执行试验。这些试验中,权重范数与泛化效果有很强的相关性。通过在 20 个图像分类数据集上进行广泛实验,并训练多种类型的深度网络(包括卷积、转换和前馈模型),我们验证了 Twin 的有效性,特别是在小样本场景下从头训练和微调的情况。