Aug, 2022

LLM.int8 (): 用于大规模 Transformers 的 8 位矩阵乘法

TL;DR通过 Int8 矩阵乘法的程序,我们可以在保持全精度性能的前提下将推理所需的内存削减一半,使用 LLM.int8 (),我们可以展示出具有高达 175B 参数的 LLMs 性能无损推理的可能性,这一结果使得该模型更加易于使用并且可以在单个服务器上运行。