Jan, 2023

ERNIE 3.0 Tiny: 简单而让人沮丧的方法提高任务无关的蒸馏泛化能力

TL;DR提出了一种利用多任务学习的方法来缩小大型预训练语言模型和小型模型之间的泛化差距,使其能够在任务无关的场景下实现直接微调,并且表现相当。实验证明,这种方法产生了一个具有更好泛化性能的学生,显著优于现有基线方法,在任务无关蒸馏方面,该方法在相应的领域内、领域外和低资源数据集上,以及 SQuAD 和四个 GLUE 任务方面,甚至超过了 8 倍大的 BERT 模型。此外,通过结合 ERNIE 3.0,在 10 个中文数据集上获得了最新的实验结果。