ACLJun, 2023

GKD: 一种大规模预训练语言模型的通用知识蒸馏框架

TL;DR提出 GKD 框架,支持在内存受限的 GPU 上使用各种蒸馏方法,以支持至少 100B 规模的 PLMs 的蒸馏,可在单个框架内轻松切换和组合不同的蒸馏方法。