将序列级知识蒸馏解释为神经机器翻译中的数据增强

Dec, 2019

将序列级知识蒸馏解释为神经机器翻译中的数据增强

Explaining Sequence-Level Knowledge Distillation as Data-Augmentation for Neural Machine Translation

Mitchell A. Gordon, Kevin Duh

TL;DR使用序列级知识蒸馏技术在数据增强和正则化的前提下训练较小的机器翻译模型，可实现类似于基准 SLKD 的结果，并显著提高 BLEU 分数。

Abstract

sequence-level knowledge distillation (SLKD) is a model compression technique that leverages large, accurate teacher models to train smaller, under-parameterized student models. Why does pre-processing MT data wi

sequence-level knowledge distillation model compression data augmentation regularization bleu gains

发现论文，激发创造

数据增强对知识蒸馏的影响

本研究发现知识蒸馏与微调在数据增强方面的偏好不同，鼓励学者探索针对知识蒸馏的数据增强方法，且合适的语义漂移度（例如，更改 30% 的令牌通常是知识蒸馏的最佳选项），并发现对于小型数据集，较大的语义漂移度更加适合，直至出现超出分布的问题。

May, 2023

为何跳过合并：一种用于中间层的简单知识蒸馏技术

本研究提出一种新颖的神经机器翻译知识蒸馏技术，通过层级监督，将大型准确的老师网络的知识注入到小巧的学生网络中，以适应边缘设备上内存约束的低资源环境。实验表明，采用该技术，学生网络的参数数量减少了 50％，仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。

Oct, 2020

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

端到端逐步增量式语音理解的序列级知识蒸馏

该研究提出了三种知识蒸馏方法，通过应用于声音编码器 (audio-KD) 和解码器 (tok-KD 和 seq-KD) 以解决神经网络在非稳态环境下学习新概念的问题，特别应用于连续学习等领域的口语理解问题。结果表明，seq-KD 可以显著提高性能，并与 audio-KD 的结合进一步降低了平均 WER 并增强了实体预测指标。

May, 2023

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的 top-1 预测，进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明 TIE-KD 优于基准模型，具有更高的潜力和泛化性能。

May, 2023

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个 PT 的词级 KD，从而有效地压缩模型。

May, 2023

微型语音增强的两步知识蒸馏

借助知识蒸馏技术，我们提出了一种新的两步法来压缩 Tiny 语音增强模型，其中包括先用知识蒸馏目标进行预训练，然后切换到完全监督训练模式，同时提出了一种新的细粒度相似性保持 KD 损失函数，该方法在高压缩和低信噪比条件下表现出突出的改进，相对于基线，在输入信噪比为 - 5dB 和 63 倍压缩的情况下，信噪失真比分别提高了 0.9dB 和 1.1dB。

Sep, 2023

利用知识蒸馏压缩多语言神经机器翻译模型的实证研究

本文探讨了如何通过知识蒸馏来压缩 MNMT 模型，发现这是一项具有挑战性的任务，并提出了一些设计思考和优化方案。

Apr, 2023

使用知识蒸馏的可扩展语法感知语言模型

利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型，从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中，我们发现，尽管顺序 LSTM 比以前的报告要好得多，但我们提出的技术显著改善了这个基准值，产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性，甚至是在从大量数据中学习的模型中也如此。

Jun, 2019