本研究发现知识蒸馏与微调在数据增强方面的偏好不同,鼓励学者探索针对知识蒸馏的数据增强方法,且合适的语义漂移度(例如,更改 30% 的令牌通常是知识蒸馏的最佳选项),并发现对于小型数据集,较大的语义漂移度更加适合,直至出现超出分布的问题。
May, 2023
本研究提出一种新颖的神经机器翻译知识蒸馏技术,通过层级监督,将大型准确的老师网络的知识注入到小巧的学生网络中,以适应边缘设备上内存约束的低资源环境。实验表明,采用该技术,学生网络的参数数量减少了 50%,仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。
Oct, 2020
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
该研究提出了三种知识蒸馏方法,通过应用于声音编码器 (audio-KD) 和解码器 (tok-KD 和 seq-KD) 以解决神经网络在非稳态环境下学习新概念的问题,特别应用于连续学习等领域的口语理解问题。结果表明,seq-KD 可以显著提高性能,并与 audio-KD 的结合进一步降低了平均 WER 并增强了实体预测指标。
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
研究自然语言生成(NLG)中的知识蒸馏技术优化模型并生成具体的文本任务,提出伪目标(PT)数据增强方法并应用于双方产生的多个 PT 的词级 KD,从而有效地压缩模型。
借助知识蒸馏技术,我们提出了一种新的两步法来压缩 Tiny 语音增强模型,其中包括先用知识蒸馏目标进行预训练,然后切换到完全监督训练模式,同时提出了一种新的细粒度相似性保持 KD 损失函数,该方法在高压缩和低信噪比条件下表现出突出的改进,相对于基线,在输入信噪比为 - 5dB 和 63 倍压缩的情况下,信噪失真比分别提高了 0.9dB 和 1.1dB。
Sep, 2023
本文探讨了如何通过知识蒸馏来压缩 MNMT 模型,发现这是一项具有挑战性的任务,并提出了一些设计思考和优化方案。
Apr, 2023
利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型,从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中,我们发现,尽管顺序 LSTM 比以前的报告要好得多,但我们提出的技术显著改善了这个基准值,产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性,甚至是在从大量数据中学习的模型中也如此。
Jun, 2019