本文研究标签平滑的结构化方法,通过对训练数据中真实标签进行软化处理,有助于避免过度自信的输出,提高神经网络泛化能力的同时,兼顾不同训练数据的特性,为机器学习领域中的正则化技术提供了一种有效的手段。实验结果表明,该方法在合成与各类真实数据集中均取得了较好的性能表现。
Jan, 2020
提出了两种新的基于实例的标签平滑方法,其中使用以硬独热标签训练的教师网络来确定应用于每个实例的每个类别的平滑度量。根据类别与实际类别的相似性,分配平滑因子。在各种深度神经体系结构和图像分类数据集上,我们的方法显示出比标准标签平滑更好的泛化和校准性。
Oct, 2021
通过使用软分布,可以提高多类神经网络的泛化性能和学习速度。基于标签平滑的网络不会变得过于自信,而且可以显著提高模型的校准性。但是,如果使用了平滑标签,知识蒸馏的效果就会减弱。标签平滑可通过训练样本的表示,将同一类别的相同样本聚为紧密的簇,这样就导致了这些实例之间的信息损失。
Jun, 2019
研究发现标签平滑具有不可避免的局限性,提出了一族熵正则化技术以解决这一问题,并探究其对语言生成任务中模型性能和稀疏性的影响。
May, 2020
该研究提出了一种自适应标签平滑(AdaLabel)方法,可以在不同的上下文环境中自适应地估计目标标签分布,以产生多样化的神经对话生成模型,该模型利用轻量级双向解码器模块产生软目标分布,避免了过度训练,实现了一种端到端的训练方式。实验结果表明,该方法在产生多样性回应方面优于其他基线模型。
May, 2021
通过实验证明,多代自蒸馏能够在一定程度上提高模型的性能,之所以会出现这种情况,部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释,即估计自适应正则化,这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新的实例特定标签平滑方法,并提供了实验证明其在许多情况下优于传统标签平滑方法。
Jun, 2020
通过对同标签样本之间的预测分布进行正则化,使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。
Mar, 2020
本文研究了如何生成更可靠的软标签,提出了一种基于 Online Label Smoothing (OLS) 策略的方法,通过构建更合理的概率分布来监督深度神经网络;实验证明,该方法可以有效地提高 CIFAR-100,ImageNet 和细粒度数据集的分类性能,并显著提高 DNN 模型与嘈杂标签的鲁棒性。
Nov, 2020
通过研究标签平滑策略在 NLP 领域不同任务中的应用,发现其可以有效地提高预训练模型的对抗鲁棒性,特别是在对抗攻击方面,并降低过度自信错误。
Dec, 2022
我们提出了一种新的损失函数,称为 ACLS,可以有效地调整深度神经网络的网络校准问题,同时避免了现有正则化方法的局限性。
Aug, 2023