通过知识蒸馏提高用于自然语言理解的多任务深度神经网络
论文介绍了基于知识蒸馏的神经机器翻译方法,并探讨了如何快速训练单个 NMT 系统,以获得来自多个教师网络的同等翻译质量,通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。
Feb, 2017
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
本文介绍了一种用于跨多个自然语言理解任务的表示学习的多任务深度神经网络(MT-DNN),其延伸了 Liu 等人(2015)所提出的模型,并包含一个预先训练的双向变形器语言模型(BERT)。MT-DNN 在 10 个 NLU 任务中实现了新的最先进结果,并提高了 GLUE 基准至 82.7%(2.2%的绝对改进),其代表着领先水平。同时,我们还展示了 MT-DNN 所学习到的表征,可以用较少的数据实现领域适应,比预先训练的 BERT 表征更加优秀。
Jan, 2019
使用知识蒸馏和教师退火的方法,可帮助多任务神经网络训练并超越单任务神经网络,文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。
Jul, 2019
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
研究多语言神经机器翻译中的灾难性遗忘问题,并提出基于知识蒸馏的生命周期学习方法,以应对其面临的问题。实验结果显示,该方法能够更好地巩固以前的知识并显著减轻问题。
Dec, 2022
本文介绍了一种简单的方法,使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译,基于经验发现,提出了两种知识蒸馏方法,以进一步增强多语言机器翻译性能。我们的实验表明,在零 - shot 翻译方案中,在低资源语言对中减轻了糟糕的性能,并在一些非英语语言对之间实现了可靠性能。
Apr, 2020
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019