- 标签平滑是针对模型错配的鲁棒化方法
本文研究了标签平滑 (label smoothing) 技术的两个修改:损失函数及概率估计,提出了一种改进版的 modified LSLR,并通过理论和实验分别证明了其具有更高的鲁棒性和更糟糕的概率估计性能。
- ACLLABO: 通过双层优化实现最优标签规则化学习
提出了基于优化框架的标签正则化方法。相较于传统标签平滑方法,此方法可以对每个实例进行不同的建模,通过较少的计算量和无需存储参数以及模型输出等信息,取得了在各个任务上的一致性提升。
- CVPR自然语言辅助手语识别
该论文提出了一种自然语言辅助手语识别 (NLA-SLR) 框架,利用手语词汇中的语义信息来降低手语识别中存在的视觉相似性 (VISigns) 问题。该论文设计了语言辅助标签平滑和交互式混合等技术来提高识别性能,并引入了视频关键点网络作为新型 - 上下文感知选择性标签平滑以校准序列识别模型
本文提出了一种基于上下文的选择性标签平滑方法(CASLS),以解决训练过程中的过度拟合问题以及置信度校准问题,通过利用顺序数据中的上下文依赖性来构造混淆矩阵,并使用类特定错误率来调整平滑强度的权重,从而实现自适应校准。在场景文本识别和语音识 - 知识蒸馏 ≈ 标签平滑:事实还是谬误?
本文探讨知识蒸馏和标签平滑之间的关系,实验结果表明在大多数情况下,它们所驱动的模型不确定性完全相反,知识蒸馏是一种直接从老师模型传递知识的方法。
- 标签平滑化提高领域内外文本对抗鲁棒性
通过研究标签平滑策略在 NLP 领域不同任务中的应用,发现其可以有效地提高预训练模型的对抗鲁棒性,特别是在对抗攻击方面,并降低过度自信错误。
- 重新思考多跳问答中的标签平滑
本论文系统分析了标签平滑法在多跳问题回答中的作用,并提出了一种专门为机器阅读理解任务设计的新型标签平滑技术 F1 smoothing,在 HotpotQA 数据集上取得了比复杂注意力机制模型等强基线模型更好的效果,结果表明标签平滑法在多跳问 - DC-MBR: 最小贝叶斯风险解码的分布式冷却
本文提出了一种名为 Distributional Cooling MBR 的简单有效的算法来解决最小贝叶斯风险解码(MBR)算法在标签平滑技术下表现不佳的问题,该问题是由标签平滑在标记级别和序列级别分布上不一致引起的,并且在 NMT 基准测 - CVPR类自适应网络校准
提出了一种类别自适应标签平滑方法(CALS),在训练过程中允许学习班级特定的乘数,通过在大规模的自适应训练中引入几种修改以量身定制它,以校准深度神经网络,综合评估和多重比较展示了所提出方法的优越性
- EMNLP自知自明的自适应标签平滑在自然语言生成中的应用
提出一种基于模型概率分布的标签平滑正则化方法,使每个样本的平滑程度都不同,从而在训练期间动态自我调整平滑程度,有效提高模型的泛化和校准性能。
- EMNLP大规模多语言语言模型的校准研究
研究在零样本场景下的大规模多语言语言模型(MMLMs)的标定问题,观察到很明显的误标定现象,在低资源语言或与英语语言类型不同的语种中尤为突出。进一步实证研究表明,温度缩放和标签平滑等标定方法能够在提高零样本场景下的标定过程中发挥良好作用,并 - 所有的损失都是平等的吗:神经崩溃的视角
本文研究了如何选择神经网络的损失函数,提出所有相关的损失函数都会展现神经折叠现象,且实验表明,无论是交叉熵、标签平滑、聚焦损失还是均方误差,只要神经网络足够大,训练充分,使用这些损失函数训练出的网络特征在测试数据上表现几乎相同。
- ICML重新思考标签平滑和知识蒸馏的兼容性:缺失了什么?
该论文通过大量实验、分析和案例研究,发现并验证了系统性扩散是理解和解决标签平滑和知识蒸馏之间互相矛盾的发现的关键概念,从而推荐使用经过标签平滑的教师模型以及低温度传输来获得高性能的学生模型。
- AAAI标签平滑的礼物:通过辅助分类器和标签噪声实现自适应标签平滑的强健训练
该论文提出了一种名为 ALASCA 的方法,该方法通过自适应标签平滑和辅助分类器的结合,提供了一种高效的抵抗标签噪声的健壮特征提取器,从而解决了深度学习中存在的关于噪声标签问题的挑战。
- ICLR记忆膨胀:建模标签噪声下的神经崩溃
本文探讨了神经坍塌现象及其在分类问题中的应用,提出了限制表达能力的神经网络模型和误差扩散现象的模型,并证明标签平滑方法可以提高分类任务的泛化能力。
- ACL针对段落检索的群体相关性标注
本文提出一种基于知识蒸馏的信息检索深度学习方法,通过设计一个简单但高效的教师模型,从复杂的教师模型中提取集体知识,加速训练并提高检索排序的性能。
- 标签平滑对 Beam Search 解码呈现的隐式长度偏差
在神经机器翻译中,标签平滑虽然在模型训练过程中提供了所需的正则化效果,但本文演示其对波束搜索解码过程产生长度偏差。我们还证明,对于完全优化的标签平滑模型,翻译长度受到独立于输入的固定常量的隐含上限约束。通过在推理时应用一个简单的修正函数来恢 - ACL命名实体识别的边界平滑
通过在命名实体识别中引入边界平滑正则化技术,将命名实体的概率分布从注释的跨度重新分配到周围的跨度,从而有效缓解了过度自信问题,改善了模型的校准性并获得更好的结果。
- 使用长度扰动和基于 N-best 的标签平滑技术提高深度神经网络声学模型的泛化能力
本文提出两种技术 —— 长度扰动和基于 N-best 的标签平滑 —— 用于改善深度神经网络在自动语音识别中的泛化性能,并在 Switchboard 和 Japanese 数据集上评估这些技术,确认它们能够改善模型的性能,并且它们可能互相补 - 从噪音注释中学习分割胎儿脑组织
本论文提出了一种使用深度学习训练的多标记胎儿脑部图像分割模型,利用自动选图和手动修复结合的多重配准策略来处理不可比较的胎儿脑部结构,采用标签平滑方法进行多噪声训练,使输出更准确,经测试后得到了更好的分割结果,有望成为胎儿 MRI 分析中提高