使用完整加和损失从带有噪声训练标签的RNN-T模型中进行鲁棒的知识蒸馏

Mar, 2023

使用完整加和损失从带有噪声训练标签的RNN-T模型中进行鲁棒的知识蒸馏

Robust Knowledge Distillation from RNN-T Models With Noisy Training Labels Using Full-Sum Loss

Mohammad Zeineldeen, Kartik Audhkhasi, Murali Karthick Baskar, Bhuvana Ramabhadran

TL;DR研究使用知识蒸馏来训练循环神经网络转录器模型的限制，并探讨如何有效地从不同质量的ASR教师中蒸馏知识。我们发现，全加和蒸馏方法在RNN-T模型中表现最佳，特别是在针对质量差的教师时，另外我们还提出了一种变体的全加和蒸馏方法，提高了WRE。

Abstract

This work studies knowledge distillation (KD) and addresses its constraints for recurrent neural network transducer (RNN-T) models. In hard disti

发现论文，激发创造

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

循环神经网络语言建模的知识蒸馏与信任正则化

本文通过应用知识蒸馏和信任正则化方法来减小模型大小，从而降低了循环神经网络（RNN）语言模型的计算成本，并保持了该模型在Penn Treebank数据集上的最先进困惑度结果，同时在声音识别任务中没有降低单词错误率（WER）。

Apr, 2019

自知力蒸馏在自然语言处理中

本文提出一种基于深度学习模型自身的软目标概率的自我知识蒸馏方法，在两种基本的NLP任务（语言模型和神经机器翻译）上部署实验，并表明了该方法的性能提高。

Aug, 2019

用未标记的转移数据将BERT蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单RNN模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多26倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

宽神经网络中的知识蒸馏：风险界限、数据效率和有误导的教师

通过使用教师网络的软输出作为向导进行学生网络的训练，知识蒸馏是模型压缩和知识转移的成功方法之一。本文通过分析一种宽神经网络的知识蒸馏，提出了一种称为数据效率的任务难度度量标准，并证明了在教师完美的情况下，教师软标签的高比例可以很有益处，并且在不完美的教师情况下，硬标签可以修正教师的错误预测，这解释了混合硬标签和软标签的实践。

Oct, 2020

软硬目标RNN-T蒸馏在大规模ASR中的比较

本文研究了将知识从一个训练规模较大的教师模型转移到较小的学生模型中的知识蒸馏技术，在LibriSpeech / LibriLight公共数据集（60k小时）和我们公司的内部数据（600k小时）上对大规模RNN-T模型的软目标和硬目标蒸馏进行了比较，发现当教师和学生具有不同的架构（如大教师和小流式学生）时，硬目标更有效。此外，软目标蒸馏在自训练场景（如迭代大型教师训练）中效果更好。通过使用软目标蒸馏进行Noisy Student训练，成功在LibriSpeech上实现了新的SoTA词误率（dev-other上8％的相对改进），并允许我们的生产教师不断适应新的数据域。

Oct, 2022

硬门知识蒸馏——利用校准实现强韧可靠的语言模型

在知识蒸馏中，我们探索了一个很少被关注的问题：什么时候蒸馏知识？我们提出了模型校准的概念，将教师模型视为不仅提供知识的源头，而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案，可以在教师模型和训练数据之间进行学习，并在自然语言生成的上下文中进行了检验。实证比较表明，硬门控知识蒸馏不仅提高了模型的泛化性能，而且显著降低了模型的校准误差。

Oct, 2022

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

在知识蒸馏中不留下任何知识：以实际数据为基础的代码切换ASR的实用和有效知识蒸馏

使用现实语音数据进行知识蒸馏，通过 K^2D 方法，成功实现了在生成速度更快的同时，模型参数减少为原来的二分之一，并在所有测试集上均胜过基线方法和教师模型。

Jul, 2024