BriefGPT.xyz
Ask
alpha
关键词
t5-small
搜索结果 - 1
ACL
紧缩模型的经济微调:蒸馏还是注释?
通过在六个不同的 NLP 任务上进行实验,本文发现从 T5-XXL (11B) 到 T5-Small (60M) 的蒸馏通常比注释更多数据来直接训练紧凑型模型(T5-Small (60M))更具成本效益,同时进一步证明了在不同预算情况下,最
→
PDF
a year ago
Prev
Next