Jan, 2021

I-BERT:仅限整数的 BERT 量化

TL;DR本研究提出了一种新的基于整数的 Transformer 模型量化方案 I-BERT,使用轻量级整数逼近方法进行端到端的 Bert 推理,无需浮点计算,相较于全精度基准实现在准确率上相当甚至略有提高,同时在 T4 GPU 系统上进行 8 位整数推理的速度比 32 位浮点推理快 2.4-4 倍。