Jun, 2022

预训练 Transformer 的极致压缩简单高效实现

TL;DR本文通过回顾相关学者先前的工作,系统地探讨了几个关键参数的影响。在此基础上,提出了一种名为 XTC 的简单而有效的压缩流程,它通过极端量化和层减少使模型尺寸降低了 50 倍,并在 GLUE 任务上实现了最新的最佳结果。