BriefGPT.xyz
Ask
alpha
关键词
transformer search space
搜索结果 - 1
AutoDistil: 面向任务无关的少样本神经架构搜索,用于蒸馏大型语言模型
该篇论文提出了一种名为 AutoDistil 的新 KD 方法,利用 NAS 自动蒸馏出可变成本的压缩模型,该方法使用归纳偏差和技巧将搜索空间分成 K 个紧凑的子空间,并使用每个子空间产生的超级模型进行训练,以在不需要重新训练的情况下进行轻
→
PDF
2 years ago
Prev
Next