BriefGPT.xyz
Ask
alpha
关键词
distillation-based training
搜索结果 - 1
自然语言理解的量化感知和张量压缩 Transformer 训练
该论文提出了一种量化感知张量压缩训练方法,通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核,进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练,并应用层与层的蒸馏方法将预训练的 Transformer
→
PDF
a year ago
Prev
Next