ACLJun, 2023
中间层和标签真的必要吗?通用语言模型蒸馏方法
Are Intermediate Layers and Labels Really Necessary? A General Language Model Distillation Method
Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Shu Zhao...
TL;DR该研究提出了一种通用语言模型压缩方法(GLMD),该方法通过执行两个阶段的词汇预测压缩和词汇量压缩来消除模型之间的维度和结构约束,同时不需要标记数据集,并在 SuperGLUE 基准上超过最佳方法的平均得分 3%。