IJCAISep, 2020

变形金刚模型全面实现 8 位整型推断

TL;DR通过对 Transformer 模型进行整合,得到了一个 8 位整型 Inference 算法,其鲁棒的 8 位量化方法大大减少了内存占用问题。实验结果表明,与基准架构相比,该算法的性能基本一致且内存占用减少了近 4 倍。