Feb, 2024

大型语言模型的模型压缩与高效推理:调研

TL;DR这篇论文研究了大型语言模型的压缩和高效推理方法,介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法,并提出了中型模型和真正大型模型的区分。此外,还介绍了一些用于大型模型高效推理的成熟框架,可以支持基本的压缩或加速算法,极大地方便了用户的模型部署。