BriefGPT.xyz
大模型
Ask
alpha
关键词
glue datasets
搜索结果 - 2
无需重新训练的基于 Transformer 的模型块压缩
提出使用 BCT 框架对 transformer 进行分块压缩的方法,以降低其巨大的计算资源和内存开销,通过在多个 GLUE 数据集上评估得出,在大多数任务中,BCT 可以实现不到 0.90%的准确性下降。
PDF
a year ago
EMNLP
通过知识选择改进预训练语言模型的知识蒸馏
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
PDF
a year ago
Prev
Next