EMNLPOct, 2020

终身语言知识蒸馏

TL;DR提出了一种名为 Lifelong Language Knowledge Distillation(L2KD)的方法来解决流式任务(stream of different tasks) LLL 中的性能降低问题,通过一个教师模型来将新任务的知识通过知识蒸馏的方式传递给现有的 LLL 模型,从而使得 LLL 模型可以更好地适应新任务,同时保留先前学习到的知识。该方法的实验证明,L2KD 在 LLL 任务的顺序生成和文本分类方面比之前的最先进模型有着不俗的表现,并且在与 multi-task 模型性能对比方面,L2KD 均获得了显著提升。