May, 2023

DisCo: 基于蒸馏的学生模型联合训练用于半监督文本挖掘

TL;DRDisCo 使用知识蒸馏从一个大的 PLM 中生成小的学生模型,采用一种新颖的共训练技术来优化多个小学生模型,以促进它们的半监督学习效果,并在半监督文本分类和摘要提取任务中得到了比线性基准模型 7.6 倍更小和 4.8 倍更快的推理速度,同时保持可比的性能。