Apr, 2023

无需重新训练的基于 Transformer 的模型块压缩

TL;DR提出使用 BCT 框架对 transformer 进行分块压缩的方法,以降低其巨大的计算资源和内存开销,通过在多个 GLUE 数据集上评估得出,在大多数任务中,BCT 可以实现不到 0.90%的准确性下降。