Dec, 2019

深度双谷:更大的模型和更多的数据会造成伤害

TL;DR我们证明了现代深度学习任务表现出 “双峰下降” 现象,即随着模型大小的增加,性能先变差,然后变好。此外,我们发现双重下降不仅是模型大小的函数,而且是训练时期数的函数。我们通过定义一个我们称之为有效模型复杂度的新复杂度度量来统一以上现象,并猜测存在相对于该度量的广义双下降。此外,我们的模型复杂度概念使我们能够确定某些区域,在这些区域中,增加(甚至是四倍)的训练样本数量实际上会损害测试性能。