ACLSep, 2022
使用整数正向和反向传播微调预训练语言模型
Towards Fine-tuning Pre-trained Language Models with Integer Forward and Backward Propagation
Mohammadreza Tayaranian, Alireza Ghaffari, Marzieh S. Tahaei, Mehdi Rezagholizadeh, Masoud Asgharian...
TL;DR本研究提出使用整数算术(integer arithmetic)进行 BERT 模型的微调,通过改变整数位宽度,在 SQuAD 和 GLUE benchmark 数据集上验证了该方法的有效性,显示出 16 位整数 BERT 的指标性能与 16 位和 32 位浮点数基线相匹配。同时使用更快且更省内存的 8 位整数数据类型,整数微调 BERT 比 FP32 基线平均损失了 3.1 个指标点。