EMNLPSep, 2020

面向设备的神经机器翻译的极低比特 Transformer 量化

TL;DR本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。