Aug, 2022

LLM.int8(): 用于大规模Transformers的8位矩阵乘法

TL;DR通过Int8矩阵乘法的程序,我们可以在保持全精度性能的前提下将推理所需的内存削减一半,使用LLM.int8(),我们可以展示出具有高达175B参数的LLMs性能无损推理的可能性,这一结果使得该模型更加易于使用并且可以在单个服务器上运行。