Jan, 2022

AutoDistil: 面向任务无关的少样本神经架构搜索,用于蒸馏大型语言模型

TL;DR该篇论文提出了一种名为 AutoDistil 的新 KD 方法,利用 NAS 自动蒸馏出可变成本的压缩模型,该方法使用归纳偏差和技巧将搜索空间分成 K 个紧凑的子空间,并使用每个子空间产生的超级模型进行训练,以在不需要重新训练的情况下进行轻量级搜索,实验表明该方法在 GLUE 基准测试中表现优异。