魔术般地减小切比雪夫原型风险消除过拟合的危险

Apr, 2024

魔术般地减小切比雪夫原型风险消除过拟合的危险

Minimizing Chebyshev Prototype Risk Magically Mitigates the Perils of Overfitting

Nathaniel Dean, Dilip Sarkar

TL;DR通过分析深度神经网络中特征提取层的激活输出，我们发现修正后的类内特征协方差和跨类原型分离是误分类概率的基本切比雪夫上界的关键组成部分，我们将其称为切比雪夫原型风险（CPR）。我们的实验结果显示，我们的训练算法在多个数据集和网络结构中减少了过拟合，并改进了先前方法。

Abstract

overparameterized deep neural networks (DNNs), if not sufficiently regularized, are susceptible to overfitting their training examples and not generalizing well to test data. To discourage overfitting, researchers have developed →

overparameterized deep neural networks multicomponent loss functions intra-class feature covariance inter-class prototype separation chebyshev prototype risk

发现论文，激发创造

监督对比原型学习：无数据增强的强鲁棒神经网络

通过引入 supervised contrastive prototyping learning 框架，可以提高 DNN 模型的鲁棒性和学习 nuance 不变性表示，在样本高效、不需要 sample mining 的情况下可以替代 softmax 分类器头，实现更好的干扰和样本鲁棒性。

Nov, 2022

卷积原型学习的鲁棒分类

本文提出了一种新的学习框架，称为卷积原型学习（CPL），以处理卷积神经网络（CNN）对开放世界识别问题的鲁棒性不足，其中采用了多个分类标准进行网络训练，提出了原型损失（PL）作为正则化以改善特征表示的内部类紧凑性，在多个数据集上实验表明 CPL 可以比传统 CNN 实现可比甚至更好的结果，并且 CPL 在拒绝和增量类别学习任务方面具有明显优势。

May, 2018

CPR：用于连续学习的分类器投影正则化

该研究提出了分类器投影正则化（CPR）的概念，通过最大化分类器输出的概率熵作为一种正则化项来投影分类器输出的条件概率至均匀分布上，从而改善基于正则化的持续学习方法中的性能，减轻灾难性遗忘并提高准确度。

Jun, 2020

CC-Cert: 一种概率方法来证明神经网络的普适鲁棒性

本文提出了一种基于 Chernoff-Cramer Bounds 的新型通用概率认证方法，可以用于对抗性攻击环境下的机器学习应用。实验结果支持了我们的理论发现，证明了我们的方法对于语义扰动具有防御能力。

Sep, 2021

解耦特征提取与分类层以实现校准的神经网络

该研究表明，在过参数化的深度神经网络中，解耦特征提取层和分类层的训练能显著改善模型校准性，同时保持准确性且训练成本低，并且在分类训练阶段对 DNN 的最后隐藏层输出加入高斯先验进一步提升校准性。

May, 2024

神经网络中良性过拟合现象的理解探讨

本研究探讨了现代机器学习模型中广泛存在的过度拟合现象及理论预测，表明超学习风险会在满足一定条件的情况下逐渐减小，并且在两层神经网络中使用 ReLU 激活函数的情况下具有近最小化学习率的能力。同时，还发现当网络参数数量超过 O (n^2) 时，超学习风险开始增加，这与最近的实证结果相符。

Jun, 2021

学习最优拟合分类器

本文探讨了在深度学习基础上进行置信区间预测的方法，并提出了一种基于置信区间训练的深度学习模型，该方法可有效地缩小置信边界，同时保证对医学诊断等高风险场景的准确性。

Oct, 2021

Hinge-Wasserstein: 通过分类降低回归的过度自信

本篇论文提出了一种基于 Wasserstein 距离的损失函数 (hinge-Wasserstein)，用于解决深度神经网络训练过程中的置信度过高问题，可以提升模型对两种不确定性的估计能力，并在 Horizon Lines in the Wild 数据集上取得显著的误差减小效果。

Jun, 2023

神经特征映射的超平面界限

本研究探讨了如何优化特征映射，使用神经网络来减少超平面的有效 VC 维度。结论表明，可以定义一个控制分类超平面 VC 维度的损失函数。当训练集较小时，使用此方法的性能有所提高。

Jan, 2022

分布鲁棒优化的大规模方法

该文主要研究了基于 CVaR 和 chi-squared 分布的鲁棒优化问题，并提出了一种新的算法以及相应的优化方案。研究结果表明，该算法不仅适用于大规模应用，而且在实验中的效率比全样本方法高 9~36 倍。

Oct, 2020