Oct, 2024

BitStack:在可变内存环境中对压缩大语言模型的细粒度大小控制

TL;DR本研究解决了在本地设备上部署大语言模型时内存限制的问题。我们提出了一种名为BitStack的创新方法,这是一个无训练的权重压缩方案,能够动态调整模型大小,以实现内存使用与模型性能之间的平衡。实验证明,尽管提供了细粒度的大小控制,BitStack在极端压缩比下仍能持续匹配或超过现有的强量化基准。