Jun, 2022

稀疏双峰下降:网络修剪加剧过拟合

TL;DR我们的研究发现,在通过网络修剪增加模型的稀疏性时,测试性能会出现一个稀疏双下降现象,即测试性能先下降,然后上升并达到顶峰,最后再次下降。我们提出了一个新的学习距离解释,它可以很好地反映稀疏双下降曲线,并比最小值平坦性更好地反映泛化能力,此外,我们还发现在稀疏双下降的情况下,中彩票假设的优势并不总是存在。