Aug, 2021

epochwise双重下降发生的时间和方式

TL;DR本文研究表明,随着参数数量的增加,深度神经网络会呈现出“双下降”的特性,同时,随着训练时间的增长,也存在着“按时间下降的双重下降”效应,这在实践中导致训练时间过长,基于验证表现的早停可能导致非最优泛化。作者提出了一种可以从理论上解释“按时间下降的双重下降”的模型,并提供了两种方法来消除这种效应。通过理论分析和实验验证表明,消除缓慢学习特征或修改训练方式可以消除“按时间下降的双重下降”,并且改善模型泛化性能。