BriefGPT.xyz
Ask
alpha
关键词
t5-xxl
搜索结果 - 2
ACL
紧缩模型的经济微调:蒸馏还是注释?
通过在六个不同的 NLP 任务上进行实验,本文发现从 T5-XXL (11B) 到 T5-Small (60M) 的蒸馏通常比注释更多数据来直接训练紧凑型模型(T5-Small (60M))更具成本效益,同时进一步证明了在不同预算情况下,最
→
PDF
a year ago
通过推测解码从 Transformer 中实现快速推断
本文提出了一种名为 “speculative decoding” 的算法,通过逐步并行地计算,采样自动回归模型可更快,同时采用了采样方法和一些新的技术,使得不改变分布的情况下,从大模型中精确解码变得更快,从而实现了不需要重新训练或架构更改即
→
PDF
2 years ago
Prev
Next