SHADE: 基于信息的深度学习正则化

Apr, 2018

SHADE: Information-Based Regularization for Deep Learning

Michael Blot, Thomas Robert, Nicolas Thome, Matthieu Cord

TL;DR本文介绍了一种基于信息论的正则化方法SHADE，用于训练深度神经网络并提高分类性能。SHADE通过条件熵定义了一个先验，并将不变表示的学习与输入和标签的相关性的学习显式分离，同时提出了适用于深度学习的随机正则化器，以实现可行的训练方案。实验结果表明，相对于常见的正则化方案，该方法有效提升了几种标准架构的分类性能。

Abstract

regularization is a big issue for training deep neural networks. In this paper, we propose a new information-theory-based regularization s

发现论文，激发创造

惩罚自信输出分布以正则化神经网络

本文研究在神经网络中加入惩罚输出分布熵的正，则可以有效防止过拟合，并且可以通过最大熵的置信惩罚和标签平滑相连，取得了基于图像识别、语言建模、机器翻译和语音识别的6个数据集的最新成果。

Jan, 2017

用谱范数正则化来提高深度学习的普适性

本研究通过对输入扰动的敏感性来研究基于深度学习的泛化能力，提出了一种简单而有效的正则化方法——谱范数正则化，试验结果证实其比其他基准方法更具有泛化性能。

May, 2017

通过噪声使深度神经网络规则化：解释和优化

通过多次噪声注入来提高泛化性能使得深度神经网络可以更好地防止过拟合，本文提出了一种使用随机梯度下降迭代中每个训练样本的多个噪声样本来实现更紧密下界的技术，并在几个计算机视觉应用中展示了其优越性。

Oct, 2017

深度学习的正则化: 一种分类方法

我们的工作提出了一个系统化和统一的分类方法，将现有的数据处理、网络架构、错误术语、正则化术语和优化过程的方法分为有意义的类别和子类别，以揭示它们之间的联系和基本相似之处，并为用户和新的正则化方法开发者提供实用建议。

Oct, 2017

梯度规范化提高了判别模型的准确性

本文发现梯度正规化可以在视觉任务中显著提高分类精度，特别是在训练数据较少的情况下。我们介绍了一种Jacobian-based的正规化方法，并在真实和合成数据上进行了实证研究，结果表明学习过程可以控制超出训练点的梯度，并产生良好的泛化能力。

Dec, 2017

利用高相关特征进行预测

本文旨在通过考虑在测试期间输入特征的分布发生偏移并表现出低相关性来评估现有的鲁棒特征学习方法和正则化方法的效果，比较它们与设计用于捕捉训练集中高相关特征的基线方法的差异，并在设计的C-MNIST数据集上进行了验证。

Oct, 2019

通过稀疏正则化进行有噪标签学习

本文提出一种基于限制网络输出在固定向量置换集合上的稀疏正则化策略，旨在解决标签噪声存在时常用精度损失函数容易过拟合或欠拟合的问题，结果表明该方法在存在噪声标签和类不平衡情况下能够显著提高精度和优于现有方法。

Jul, 2021

TIER-A: 信息提取的去噪学习框架

本研究基于深度神经语言模型，探讨了信息熵在信息提取过程中过拟合的作用，提出了TIER-A联合训练框架，使用温度校准和信息熵正则化避免了过拟合，并在广泛的实验中得到了验证。

Nov, 2022

深度神经网络内存高效训练的流形正则化

本文提出了一种利用归纳偏置驱动的网络设计原则和基于层的流形正则化目标来实现神经网络学习过程中提高内存效率的框架，该框架的使用结果相对于传统学习技术具有更好的绝对性能和实证一般化误差，可以无缝地与现有的网络压缩方法相结合。

May, 2023

广义谱方法的随机特征逼近

随机特征逼近是加速大规模算法中核方法的最流行技术之一，并提供了对深度神经网络分析的理论方法。我们分析了与随机特征相结合的一大类谱正则化方法的泛化性质，包括梯度下降等具有隐式正则化的核方法或Tikhonov正则化等明确方法。对于我们的估计器，我们在适当的源条件下定义的规则性类别（甚至包括不在再生核希尔伯特空间中的类别）上获得了最佳学习速率。这改进或完善了先前在特定核算法相关设置中获得的结果。

Aug, 2023