ACLSep, 2022

使用整数正向和反向传播微调预训练语言模型

TL;DR本研究提出使用整数算术(integer arithmetic)进行 BERT 模型的微调,通过改变整数位宽度,在 SQuAD 和 GLUE benchmark 数据集上验证了该方法的有效性,显示出 16 位整数 BERT 的指标性能与 16 位和 32 位浮点数基线相匹配。同时使用更快且更省内存的 8 位整数数据类型,整数微调 BERT 比 FP32 基线平均损失了 3.1 个指标点。