BriefGPT.xyz
Aug, 2022
LLM.int8(): 用于大规模Transformers的8位矩阵乘法
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale
HTML
PDF
Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer
TL;DR
通过Int8矩阵乘法的程序,我们可以在保持全精度性能的前提下将推理所需的内存削减一半,使用LLM.int8(),我们可以展示出具有高达175B参数的LLMs性能无损推理的可能性,这一结果使得该模型更加易于使用并且可以在单个服务器上运行。
Abstract
large language models
have been widely adopted but require significant GPU memory for
inference
. We develop a procedure for
int8 matrix multiplic
→