BriefGPT.xyz
大模型
Ask
alpha
关键词
data-agnostic distillation
搜索结果 - 1
ICLR
MixKD:大规模语言模型高效蒸馏
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
PDF
4 years ago
Prev
Next