Nov, 2023

无数据蒸馏:通过文本到文本迁移的语言模型

TL;DR提出了一种新的 DFKD 框架,即 DFKD-T^3,该框架将预训练的生成语言模型作为可控数据生成器用于模型压缩,实现了端到端可学习的文本转换框架,通过改善特异性和多样性提高了蒸馏性能,并在情感分析、语言可接受性和信息提取等各种下游任务中展示出卓越的性能,此外,生成的文本可直接用于蒸馏其他语言模型,超过了 SOTA 方法,在一般的 DFKD 场景中更具吸引力。