Aug, 2021

epochwise 双重下降发生的时间和方式

TL;DR本文研究表明,随着参数数量的增加,深度神经网络会呈现出 “双下降” 的特性,同时,随着训练时间的增长,也存在着 “按时间下降的双重下降” 效应,这在实践中导致训练时间过长,基于验证表现的早停可能导致非最优泛化。作者提出了一种可以从理论上解释 “按时间下降的双重下降” 的模型,并提供了两种方法来消除这种效应。通过理论分析和实验验证表明,消除缓慢学习特征或修改训练方式可以消除 “按时间下降的双重下降”,并且改善模型泛化性能。