大型语言模型的模型压缩综述
这篇论文研究了大型语言模型的压缩和高效推理方法,介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法,并提出了中型模型和真正大型模型的区分。此外,还介绍了一些用于大型模型高效推理的成熟框架,可以支持基本的压缩或加速算法,极大地方便了用户的模型部署。
Feb, 2024
如何在不牺牲准确性的情况下压缩语言模型,本论文调查和总结了包括修剪、量化、知识蒸馏等在内的多样化压缩算法,并对其进行了深入分析,并根据我们的调查结果介绍了有前景的未来研究主题。
Jan, 2024
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个 GitHub 存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023
压缩大型语言模型(LLM)包含数十亿参数,可以提供更快的推理速度,更小的内存占用,并支持本地部署。我们通过对多个模型系列(ENCODER、ENCODER-DECODER 和 DECODER)使用 LAMA 和 LM-HARNESS 基准进行全面分析,以系统量化常用压缩技术对模型性能的影响,特别关注涉及参数化知识的权衡,旨在为从业人员提供实用的见解,帮助他们在压缩决策时做出明智的选择。
Dec, 2023
尽管现代大型语言模型在取得显著成就的同时遇到了过高的计算和内存占用问题,但最近的研究工作展示了基于裁剪和量化的无需训练和无需数据的压缩方法在压缩大型语言模型方面取得了显著成功。本研究介绍了一种名为 LLM-KICK 的压缩语言模型评估协议,通过其揭示了当前最先进的压缩方法的优点和缺点,并展示了稀疏化和量化对于语言理解、推理、生成、检索和摘要等任务的影响。我们希望这项研究能够促进更好的语言模型压缩方法的发展。
Oct, 2023
大规模语言模型的有效推理需要克服模型规模大、注意力操作复杂度高、自回归解码等问题,本文对提高大规模语言模型推理效率的现有技术文献进行了综述,介绍了数据层、模型层和系统层优化的方法,并通过实验进行了定量分析,最后总结了相关知识,并探讨了未来研究方向。
Apr, 2024
综述了旨在改善大型语言模型 (Large Language Models) 效率的算法进展,包括扩展法则、数据利用、架构创新、训练和调优策略以及推理技术等多个方面,旨在为研究人员和从业者提供宝贵的资源,并为未来的创新奠定基础。
Dec, 2023
大型语言模型通过自我监督在大规模网络文本上进行训练,模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响,但在这两个方法之间的相互作用方面,目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究,结果表明,较长的预训练时间和较大的模型会导致更高的社会偏见,而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。
Dec, 2023
我们将理解过程视为信息压缩,并提出了一种基于无损数据压缩的大型语言模型(LLMs)排序方法。我们使用五个大型语言模型作为压缩的先验,并比较它们在困难的自然语言处理任务中的性能,包括句子完成、问题回答和共指消解。实验结果表明,压缩比率和模型性能呈正相关,因此可以作为评估大型语言模型的通用指标。
Jun, 2024