面向任务和架构独立的泛化差预测器

Jun, 2019

Towards Task and Architecture-Independent Generalization Gap Predictors

Scott Yak, Javier Gonzalvo, Hanna Mazzawi

TL;DR训练13,500个不同结构，不同变体的螺旋数据集和使用不同优化参数，我们使用这个数据集训练任务独立和架构独立的神经网络广义间隙预测器。结果表明，使用DNN和RNN可以优于线性模型，并取得了$R^2=0.965$和$R^2=0.584$的预测结果。

Abstract

Can we use deep learning to predict when deep learning works? Our results suggest the affirmative. We created a dataset by training 13,500 neural

发现论文，激发创造

该论文研究了大批量训练中的一般化差距现象，并提出一种名为“Ghost Batch Normalization”的新算法，可显著减少一般化差距而不增加权重更新数量。

May, 2017

该论文研究发现，交叉熵等损失函数不能很好地预测深度神经网络的泛化能力，作者提出了一种基于边缘分布的测量方法，它可以被应用在任何架构的前馈深度网络上，并指出这个方法可能会提示新的训练损失函数的设计来实现更好的泛化。

Sep, 2018

本文探讨了神经网络架构的泛化能力，发现训练和泛化在整洁和结构化的数据集上很容易，在嘈杂和非结构化的数据集上则更难。通过使用“信息”空间和“噪声”空间，本文证明了即使是常数宽度的神经网络，对于足够好的数据集也可以证明泛化。

Jun, 2019

本文探讨了全连接前馈神经网络中隐藏节点的激活模式，提出了从两个信息处理系统，即连续性和离散性的角度来看待这种网络分类能力的新方式，并且重点突出了这两者搭配的重要性，为深度学习中神经网络的泛化能力提供了新的思路。

Jan, 2020

本文提出了一种用于评估神经网络泛化能力的新框架，使用扰动响应曲线和Gi-score，Pal-score等新指标来预测泛化差距，并在PGDL竞赛中取得更好的预测成绩。此外，该框架和指标还可用于选择与给定扰动不变的最佳网络架构和超参数。

Jun, 2021

通过将校准误差分解为训练集的校准误差和校准泛化间隙，我们理论证明了深度神经网络在训练集上通常是校准的，校准泛化间隙受到标准泛化间隙的限制，因此具有小的泛化间隙的模型是校准的。

Oct, 2022

本文介绍了一种组合DNN、XGBoost和差异性计算技术的集成方法，用于估计预测的不确定性、提高准确性并提供预期变化的区间，其计算简单，适用于小数据集且性能提升显著，且模型的预测区间可平均包括实际值的71％和78％。

Oct, 2022

研究深度神经网络的泛化差距问题，发现模型不一致和不稳定性是影响泛化差距的关键因素，通过算法降低不一致性可以提高性能，并为现有方法（如协同蒸馏和集成学习）提供了理论基础。

May, 2023

本文研究了深度神经网络的泛化能力和节点稀疏性之间的关系，通过开发一个基于减小的有效模型大小的框架来证明了稀疏和泛化之间的基本权衡关系，并提出了一种新的方法来分析这个问题。

Jul, 2023

通过使用DNN验证技术，我们引入了一种新的方法来识别具有稳健泛化能力的DNN决策规则，并在真实世界环境中进行了广泛评估，为部署DNN驱动系统提供了新的验证目标。

Jun, 2024