BAM! 自然语言理解的再生多任务网络

ACLJul, 2019

BAM! 自然语言理解的再生多任务网络

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

Kevin Clark, Minh-Thang Luong, Urvashi Khandelwal, Christopher D. Manning, Quoc V. Le

TL;DR使用知识蒸馏和教师退火的方法，可帮助多任务神经网络训练并超越单任务神经网络，文中使用该方法在 GLUE 基准测试上成功的提升了 BERT 的多任务微调性能。

Abstract

It can be challenging to train multi-task neural networks that outperform or even match their single-task counterparts. To help address this, we propose using knowledge distillation where single-task models teach

multi-task neural networks knowledge distillation teacher annealing bert glue benchmark

发现论文，激发创造

通过知识蒸馏提高用于自然语言理解的多任务深度神经网络

本文使用知识蒸馏方法对多任务深度神经网络进行优化，提供了解决集成大型神经网络问题的方法，并在 GLUE 基准测试中取得了显著的成果。

Apr, 2019

从 BERT 中提炼出特定任务的知识并转化为简单的神经网络

本文主要研究神经网络中的自然语言处理，通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务，证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下，与 ELMo 相比获得可媲美的结果。

Mar, 2019

神经机器翻译的集成蒸馏

论文介绍了基于知识蒸馏的神经机器翻译方法，并探讨了如何快速训练单个 NMT 系统，以获得来自多个教师网络的同等翻译质量，通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。

Feb, 2017

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

一种灵活的 BERT 多任务模型服务

本文提出一种基于 BERT 的多任务框架，采用部分微调，单任务模型知识蒸馏和模型压缩技术，使得各个子任务的共享部分得以共用，从而实现了低成本、高性能的实时任务处理。该框架在小米智能语音助手中得到了应用，整个系统处理成本降低了 86%。

Jul, 2021

基于知识蒸馏的多语言神经机器翻译的终身学习

研究多语言神经机器翻译中的灾难性遗忘问题，并提出基于知识蒸馏的生命周期学习方法，以应对其面临的问题。实验结果显示，该方法能够更好地巩固以前的知识并显著减轻问题。

Dec, 2022

多语言神经机器翻译与知识蒸馏

本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性，并在数据集上进行了实验，结果表明该方法可以通过训练单独的模型（即老师）来训练多语言模型，这使得一个模型即可具备处理多达 44 种不同语言的能力（且其准确性与单独模型相当甚至更优）。

Feb, 2019

自适应多教师多层级知识蒸馏

我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法，该方法通过将每个教师与潜在表示相关联，自适应地学习实例级教师重要性权重，从而获取集成的高级知识，并通过多组提示策略从多个教师处汇集中间级知识。实验表明，该方法确保学生比强竞争者取得了更好的性能。

Mar, 2021