Jun, 2021

XtremeDistilTransformers:任务无关蒸馏中的任务转移

TL;DR本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers,利用任务特定方法学习出一个通用模型,可以应用于任意语言和任务,并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能,并发布了三个蒸馏的任务不可知检查点,其中最小的检查点包含 1300 万个参数,实现了多项任务的 SOTA 表现。