重拾被遗忘的知识：关于遗忘、过拟合和无需训练的深度神经网络集成

Oct, 2023

重拾被遗忘的知识：关于遗忘、过拟合和无需训练的深度神经网络集成

Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free Ensembles of DNNs

Uri Stern, Daphna Weinshall

TL;DR在深度神经网络中，我们引入一种新的评分方法来衡量过拟合，该方法通过监测验证数据上的模型遗忘率，从而揭示了即使总体上泛化能力得到改善，仍存在数据空间中某些区域泛化能力退化的情况。基于这些观察，我们构建了一种新的集成方法，该方法仅基于单个网络的训练历史，在不增加额外训练时间的情况下显著提高了性能。在现代深度模型上进行的广泛实证评估显示了该方法在多个数据集、神经网络架构和训练方案中的实用性，无论是从头开始训练还是在迁移学习中使用预训练网络。值得注意的是，我们的方法在实现和使用上更加简单，并在 Imagenet 上改进了具有竞争力的网络 1% 的性能。

Abstract

The infrequent occurrence of overfit in deep neural networks is perplexing. On the one hand, theory predicts that as models get larger they should eventually become too specialized for a specific training set, wi

overfit deep neural networks generalization quantifying ensemble method

发现论文，激发创造

众志成城：使用集成模型的逐轮一致性来抵御过拟合

通过理论分析和经验验证，在深度神经网络中，过拟合发生时，分类器之间的差异性增加。受此结果的指导，我们提出了一种新的基于集成的预测方法，以对抗过拟合。该方法通过选择训练过程中最一致的预测结果来确定最终预测，有效消除了过拟合对模型泛化性能的不利影响，甚至在性能上超过了早停止方法。这种易于实现、可与任何训练方案和架构集成的方法，不需要额外的先验知识，因此是克服过拟合问题的实用和有用工具。

Oct, 2023

量化过拟合：通过零空间分析评估神经网络性能

研究如何在没有访问训练数据或知道其准确性的情况下，使用测试数据来量化过度拟合的神经网络中的空值，并发现在过度拟合和普遍化不佳的模型中有特定的空间特征，以保证方法的隐私性和普适性。

May, 2023

深度神经网络学习中示例遗忘的实证研究

研究神经网络在单分类任务训练中的学习动态，发现在缺乏明显分布偏移的数据情况下，存在相关遗忘现象，某些样例更容易被遗忘，而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。

Dec, 2018

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

自然、稳健和灾难性过拟合中的过度记忆

通过探索不同类型的过拟合，本研究聚焦于自然模式，发现深度神经网络中的过度记忆现象并提出了一种名为 “干扰过度记忆” 的框架，通过移除或增加高置信度的自然模式来综合地减轻不同类型的过拟合，实验证明该方法在各种训练范式中有效。

Oct, 2023

对抗鲁棒深度学习中的过拟合问题

研究深度学习领域中常用的过参数化网络和尽可能训练的现象，发现对于对抗训练的深度网络来说过拟合确实会对其稳健性产生很大的负面影响，因此建议使用提前停止等方法来取得相似的性能提升。

Feb, 2020

深度前馈神经网络癌转移预测模型过拟合的实证研究

本研究使用电子病历数据集探讨关于深度前馈神经网络预测模型中过拟合现象。通过改变深度 FNNs 模型的 11 个超参数的不同值，研究了每个超参数对于预测性能和过拟合的影响，发现学习率、decay 和 batchsize 对过拟合和预测性能的影响更显著。

Aug, 2022

单模型之外的持续学习

通过实验验证，本研究探讨了在连续学习过程中使用集成模型的优缺点，提出了一个计算简单、性能优良的算法来解决集成模型带来的高计算成本问题，并解决了连续学习中的遗忘问题。

Feb, 2022

神经网络的泛化误差的高维动态

本文通过随机矩阵理论和线性模型中的准确解，研究了使用梯度下降训练的大型神经网络的泛化动态，发现梯度下降学习的动态自然地保护了大型网络免受过度训练和过拟合的影响，当自由参数的有效数量等于样本数量时，网络过度训练最严重，大小的适当调整可以减少网络过度训练，另外，高维域下，低泛化误差需要从小的初始权重开始。此外，本文还发现了两个新的现象：在梯度下降过程中存在一个冻结的权重子空间，而高维状态的统计特性可保护免受过度训练的影响。

Oct, 2017