Oct, 2023

重拾被遗忘的知识:关于遗忘、过拟合和无需训练的深度神经网络集成

TL;DR在深度神经网络中,我们引入一种新的评分方法来衡量过拟合,该方法通过监测验证数据上的模型遗忘率,从而揭示了即使总体上泛化能力得到改善,仍存在数据空间中某些区域泛化能力退化的情况。基于这些观察,我们构建了一种新的集成方法,该方法仅基于单个网络的训练历史,在不增加额外训练时间的情况下显著提高了性能。在现代深度模型上进行的广泛实证评估显示了该方法在多个数据集、神经网络架构和训练方案中的实用性,无论是从头开始训练还是在迁移学习中使用预训练网络。值得注意的是,我们的方法在实现和使用上更加简单,并在 Imagenet 上改进了具有竞争力的网络 1% 的性能。