Mar, 2024

动态内存压缩:为加速推断而改进语言模型

TL;DR通过动态内存压缩 (DMC) 方法,我们可以提高基于 Transformers 的大型语言模型 (LLMs) 在自回归推理中的吞吐量,在保持原有性能的同时,使用不同的压缩率来适应不同的注意头和层级,并可以与其他技术相结合以提供更好的结果。