ACLJun, 2023
GKD: 一种大规模预训练语言模型的通用知识蒸馏框架
GKD: A General Knowledge Distillation Framework for Large-scale Pre-trained Language Model
Shicheng Tan, Weng Lam Tam, Yuanchun Wang, Wenwen Gong, Yang Yang...
TL;DR提出 GKD 框架,支持在内存受限的 GPU 上使用各种蒸馏方法,以支持至少 100B 规模的 PLMs 的蒸馏,可在单个框架内轻松切换和组合不同的蒸馏方法。