ACLMay, 2023

紧缩模型的经济微调:蒸馏还是注释?

TL;DR通过在六个不同的 NLP 任务上进行实验,本文发现从 T5-XXL (11B) 到 T5-Small (60M) 的蒸馏通常比注释更多数据来直接训练紧凑型模型(T5-Small (60M))更具成本效益,同时进一步证明了在不同预算情况下,最大化效用的最佳蒸馏量有所不同。