自知力蒸馏用于学习模糊性

Jun, 2024

Self-Knowledge Distillation for Learning Ambiguity

Hancheol Park, Soyeong Jeong, Sukmin Cho, Jong C. Park

TL;DR通过自知力蒸馏方法，有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题，并通过重新校准置信度，在生成更好的标签分布上取得了显著的改进。同时，该方法相对于现有方法在训练模型时更高效，无需额外的训练过程来完善标签分布。

Abstract

Recent language models have shown remarkable performance on natural language understanding (NLU) tasks. However, they are often sub-optimal when faced with ambiguous samples that can be interpreted in multiple ways, over-confidently predicting a single label without consideration for i

language models nlu tasks self-knowledge distillation label distributions over-confidence

发现论文，激发创造

自知力蒸馏在自然语言处理中

本文提出一种基于深度学习模型自身的软目标概率的自我知识蒸馏方法，在两种基本的 NLP 任务（语言模型和神经机器翻译）上部署实验，并表明了该方法的性能提高。

Aug, 2019

自我知识蒸馏正则化类别预测

通过对同标签样本之间的预测分布进行正则化，使得深度神经网络在图像分类任务中显著提高预测能力和置信度表现的一种新的正则化方法。

Mar, 2020

多层知识蒸馏用于文本领域中的外部分布检测

本研究实现了一种多级知识蒸馏方法，将自监督学习与基于语言模型的强制学习相结合，以生成新颖的 OoD 检测方案，并在多个基准数据集上实现了最新的性能。

Nov, 2022

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

多标签知识蒸馏

提出一种新颖的多标签知识蒸馏方法，通过将多标签学习问题分解为一组二元分类问题，并利用标签间嵌入的结构信息来增强学习特征表示的独特性，避免标签间的知识对抗，从而在多个基准数据集上实现了优越的性能。

Aug, 2023

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

文本摘要的嘈杂自知力蒸馏

本文将自我知识蒸馏应用到文本摘要中，通过引入教师模型生成平滑标签以帮助正则化训练，同时使用多个噪声信号来更好地模拟不确定性，实验结果显示该框架提高了预先训练和非预先训练摘要器的性能，并达到了最先进的结果。

Sep, 2020

一种新颖的自我知识蒸馏方法，利用孪生表示学习进行行为识别

本文提出了一种新的自知识蒸馏方法，通过孪生表示学习来最小化给定样本的两个不同视图的表示向量之间的差异，并利用软标签蒸馏和表示向量的相似性，因此能够在同一数据点的各种视图中生成更一致的预测和表示，并在各个标准数据集上验证了其显着提高精确度的效果。

Sep, 2022

利用不确定性感知混合进行计算高效的知识蒸馏

本文介绍了一种基于不确定性采样和自适应混合的知识蒸馏方法 ——UNIX，该方法可有效降低训练中的计算成本并提高性能，得到了 CIFAR100 和 ImageNet 上的验证。

Dec, 2020

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023