Feb, 2023

HomoDistil: 预训练 Transformer 的同拓扑无关任务蒸馏

TL;DR本文提出了一种基于迭代剪枝的新型无需任务特定指导的蒸馏方法 ——Homotopic Distillation(HomoDistil),旨在实现在小的计算成本和存储占用下,通过迁移知识来产生一个紧凑的预训练模型,并通过大量实验表明,与现有基线方法相比,HomoDistil 具有明显的优势。