自知自明的自适应标签平滑在自然语言生成中的应用

EMNLPOct, 2022

自知自明的自适应标签平滑在自然语言生成中的应用

Adaptive Label Smoothing with Self-Knowledge in Natural Language Generation

Dongkyu Lee, Ka Chun Cheung, Nevin L. Zhang

TL;DR提出一种基于模型概率分布的标签平滑正则化方法，使每个样本的平滑程度都不同，从而在训练期间动态自我调整平滑程度，有效提高模型的泛化和校准性能。

Abstract

overconfidence has been shown to impair generalization and calibration of a neural network. Previous studies remedy this issue by adding a regula

overconfidence neural network regularization label smoothing model probability distribution

发现论文，激发创造

结构标签平滑正则化

本文研究标签平滑的结构化方法，通过对训练数据中真实标签进行软化处理，有助于避免过度自信的输出，提高神经网络泛化能力的同时，兼顾不同训练数据的特性，为机器学习领域中的正则化技术提供了一种有效的手段。实验结果表明，该方法在合成与各类真实数据集中均取得了较好的性能表现。

Jan, 2020

基于实例的标签平滑技术用于更好的校准分类网络

提出了两种新的基于实例的标签平滑方法，其中使用以硬独热标签训练的教师网络来确定应用于每个实例的每个类别的平滑度量。根据类别与实际类别的相似性，分配平滑因子。在各种深度神经体系结构和图像分类数据集上，我们的方法显示出比标准标签平滑更好的泛化和校准性。

Oct, 2021

标签平滑在什么时候有帮助？

通过使用软分布，可以提高多类神经网络的泛化性能和学习速度。基于标签平滑的网络不会变得过于自信，而且可以显著提高模型的校准性。但是，如果使用了平滑标签，知识蒸馏的效果就会减弱。标签平滑可通过训练样本的表示，将同一类别的相同样本聚为紧密的簇，这样就导致了这些实例之间的信息损失。

Jun, 2019

广义熵正则化或者：标签平滑并没有什么特别之处

研究发现标签平滑具有不可避免的局限性，提出了一族熵正则化技术以解决这一问题，并探究其对语言生成任务中模型性能和稀疏性的影响。

May, 2020

通过自适应标签平滑实现对话生成的多样化

该研究提出了一种自适应标签平滑（AdaLabel）方法，可以在不同的上下文环境中自适应地估计目标标签分布，以产生多样化的神经对话生成模型，该模型利用轻量级双向解码器模块产生软目标分布，避免了过度训练，实现了一种端到端的训练方式。实验结果表明，该方法在产生多样性回应方面优于其他基线模型。

May, 2021

自我蒸馏作为实例特定标签平滑化

通过实验证明，多代自蒸馏能够在一定程度上提高模型的性能，之所以会出现这种情况，部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释，即估计自适应正则化，这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新的实例特定标签平滑方法，并提供了实验证明其在许多情况下优于传统标签平滑方法。

Jun, 2020

自我知识蒸馏正则化类别预测

通过对同标签样本之间的预测分布进行正则化，使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。

Mar, 2020

深入研究标签平滑

本文研究了如何生成更可靠的软标签，提出了一种基于 Online Label Smoothing (OLS) 策略的方法，通过构建更合理的概率分布来监督深度神经网络；实验证明，该方法可以有效地提高 CIFAR-100，ImageNet 和细粒度数据集的分类性能，并显著提高 DNN 模型与嘈杂标签的鲁棒性。

Nov, 2020

标签平滑化提高领域内外文本对抗鲁棒性

通过研究标签平滑策略在 NLP 领域不同任务中的应用，发现其可以有效地提高预训练模型的对抗鲁棒性，特别是在对抗攻击方面，并降低过度自信错误。

Dec, 2022

ACLS：自适应和条件标签平滑用于网络校准

我们提出了一种新的损失函数，称为 ACLS，可以有效地调整深度神经网络的网络校准问题，同时避免了现有正则化方法的局限性。

Aug, 2023