BriefGPT.xyz
Ask
alpha
关键词
learning distance interpretation
搜索结果 - 1
ICML
稀疏双峰下降:网络修剪加剧过拟合
我们的研究发现,在通过网络修剪增加模型的稀疏性时,测试性能会出现一个稀疏双下降现象,即测试性能先下降,然后上升并达到顶峰,最后再次下降。我们提出了一个新的学习距离解释,它可以很好地反映稀疏双下降曲线,并比最小值平坦性更好地反映泛化能力,此外
→
PDF
2 years ago
Prev
Next