BriefGPT.xyz
Ask
alpha
关键词
run-time method
搜索结果 - 1
EMNLP
Transformer 推理的零 - shot 动态量化
我们介绍了一种新的运行时方法,可以显著减少将 BERT-like 模型量化为 8 位整数所带来的准确性损失。我们的方法允许利用量化而无需进行额外的校准步骤,我们在几个 NLP 任务上的结果表明了这种技术的实用性。
PDF
2 years ago
Prev
Next