Jun, 2019

Transformer 神经机器翻译模型的高效 8 位量化

TL;DR本研究尝试利用 INT8/VNNI 指令量化 Transformer 模型,提高推理性能,同时保持不到 0.5% 的准确度下降。研究者在 TensorFlow 中提出了一种新的量化技术,并采用了一种并行处理技术,优化后的结果比最佳 FP32 性能提高了 1.5 倍,讨论了量化深度学习的机会和挑战,并建立了在 Intel CPU 上高效运行推理的最佳实践。