Mar, 2023

用于语言模型中有效师生知识迁移的神经结构搜索

TL;DR提出了使用神经架构搜索(NAS)来寻找最佳学生模型进行知识蒸馏的 KD-NAS 模型,该模型检索出与自然语言任务关联的顶级候选架构,然后在完整的下游任务培训集上提取架构,获得与手工制作的学生模型相当的性能,在 GPU 延迟方面却以 15%的速度提升(CPU 方面则以 20%的速度提升)。