EMNLPNov, 2022

Transformer 推理的零 - shot 动态量化

TL;DR我们介绍了一种新的运行时方法,可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤,我们在几个 NLP 任务上的结果表明了这种技术的实用性。