本文提出一种改进机器翻译模型的方法,即将 NN search 前置,并通过最近邻知识蒸馏(NN-KD)训练基本 NMT 模型直接学习 NN 知识,可以更好地解决机器翻译中的过度纠正问题,并在保持训练和解码速度不变的情况下,实现了比 NN-MT 等现有方法更好的结果。
May, 2022
借助知识蒸馏技术,我们提出了一种新的两步法来压缩 Tiny 语音增强模型,其中包括先用知识蒸馏目标进行预训练,然后切换到完全监督训练模式,同时提出了一种新的细粒度相似性保持 KD 损失函数,该方法在高压缩和低信噪比条件下表现出突出的改进,相对于基线,在输入信噪比为 - 5dB 和 63 倍压缩的情况下,信噪失真比分别提高了 0.9dB 和 1.1dB。
Sep, 2023
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023
本文通过实验发现,知识蒸馏可以降低数据集的复杂度,帮助非自回归机器翻译模型 NART 更好地建模输出的变化,提高翻译质量,并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能,达到了最先进的性能水平。
Nov, 2019
研究自然语言生成(NLG)中的知识蒸馏技术优化模型并生成具体的文本任务,提出伪目标(PT)数据增强方法并应用于双方产生的多个 PT 的词级 KD,从而有效地压缩模型。
本研究提出一种新颖的神经机器翻译知识蒸馏技术,通过层级监督,将大型准确的老师网络的知识注入到小巧的学生网络中,以适应边缘设备上内存约束的低资源环境。实验表明,采用该技术,学生网络的参数数量减少了 50%,仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。
Oct, 2020
本文探讨了如何通过知识蒸馏来压缩 MNMT 模型,发现这是一项具有挑战性的任务,并提出了一些设计思考和优化方案。
Apr, 2023
本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能,通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明,使用该方法可以对相似和不相似的语言对进行端到端 ST 实现,并且在老师模型的指导下,端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。
Apr, 2019
本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译模型的性能,并探讨了正反向模型、自回归和非自回归模型下的性能提升情况。
Apr, 2021