用平滑 l0 正则化的熵误差函数的 SGD 方法用于神经网络

May, 2024

用平滑 l0 正则化的熵误差函数的 SGD 方法用于神经网络

SGD method for entropy error function with smoothing l0 regularization for neural networks

Trong-Tuan Nguyen, Van-Dat Thang, Nguyen Van Thin, Phuong T. Nguyen

TL;DR基于熵误差函数的神经网络收敛速度慢，容易被困在局部最小值或错误的饱和问题中。为了解决这个问题，我们提出了一种新的带有平滑 l0 正则化的熵函数，用于前馈神经网络，并通过实证评估表明该算法能够大幅提高神经网络的预测性能，并且相比于基线模型，我们的算法可以产生更精确的分类结果。

Abstract

The entropy error function has been widely used in neural networks. Nevertheless, the network training based on this error function generally leads to a slow →

entropy error function neural networks convergence l0 regularization prediction performance

发现论文，激发创造

广义熵正则化或者：标签平滑并没有什么特别之处

研究发现标签平滑具有不可避免的局限性，提出了一族熵正则化技术以解决这一问题，并探究其对语言生成任务中模型性能和稀疏性的影响。

May, 2020

深度 Top-k 分类的平滑损失函数

论文研究了深度神经网络中 Top-k 分类任务的性能评估方法，提出了一族平滑损失函数，与交叉熵类似但更适用于 Top-k 优化，其中一种基于边界的新型损失函数在处理噪声和数据大小等多种情况下比交叉熵更有鲁棒性。

Feb, 2018

无正则项梯度下降学得的过参数化深度神经网络估计的 $L_2$ 误差分析

通过合适的初始化、梯度下降步数和步长选择，在深度神经网络中无需正则化项，可以达到普适的一致性和收敛速度，而且对于有界预测变量，$L_2$ 误差收敛速度约为 $n^{-1/(1+d)}$，对于交互模型，收敛速度与输入维度 $d$ 无关。

Nov, 2023

交叉熵 vs. 标签平滑：神经崩溃视角

通过神经崩溃的视角研究标签平滑损失，发现标签平滑能够加快模型收敛速度，增强模型崩溃水平，提供了模型校准和性能优势的有价值见解，同时通过理论和实证相结合的方法，深化了对标签平滑和交叉熵损失之间差异的理解，并展示了神经崩溃框架在深度神经网络研究中的应用。

Feb, 2024

惩罚自信输出分布以正则化神经网络

本文研究在神经网络中加入惩罚输出分布熵的正，则可以有效防止过拟合，并且可以通过最大熵的置信惩罚和标签平滑相连，取得了基于图像识别、语言建模、机器翻译和语音识别的 6 个数据集的最新成果。

Jan, 2017

基于熵的深度神经网络引导加速收敛与提升性能

通过引入基于熵的损失项，我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示，在更少的维度上收敛于更好的测试指标，并在图像压缩和图像分类的实验中展示了其有效性。

Aug, 2023

初始化的熵替代方案

研究了局部熵损失函数在深度卷积神经网络中的应用，提出了一种可调整的模型复杂度的正则化方法，并将其解释为物理学中的重整化和时空结构的体现。

Jul, 2021

深度神经网络有效地学习非平滑函数

本文阐述了深度神经网络在一定情况下为何比其他模型表现更好，并通过考虑一定类别的非光滑函数，推导了使用 ReLU 激活的 DNN 的估计器的泛化误差，同时说明了 DNN 的收敛速率几乎是最优的，而某些流行的模型则未达到最优速率，这为选择合适的 DNN 层数和边提供了指导。

Feb, 2018

Entropy-SGD: 将梯度下降偏向于宽阔的山谷

本论文提出一种名为 Entropy-SGD 的新型优化算法，利用能量景观的局部几何进行深度神经网络的训练，结果显示该算法相较于 SGD 具有更平滑的能量景观以及更好的泛化性能，是目前最先进的技术之一。

Nov, 2016

交叉熵损失函数：理论分析与应用

本文研究了广泛应用的交叉熵损失函数，提出了一族损失函数 comp-sum，包括了交叉熵、广义交叉熵、平均绝对误差等。我们首次给出了这些损失函数的 H - 相容性，进一步介绍了一种新的平滑对抗 comp-sum 损失函数，并证明了它们有助于在对抗性环境下提高模型的 H - 相容性。

Apr, 2023