Jun, 2024

基于流形对齐的层合并压缩 LLM

TL;DR使用流形学习和归一化成对信息瓶颈测量方法的基于流形知识对齐和层合并的压缩(MKA)方法,成功降低模型大小并保持性能,在多个基准数据集和各种大语言模型中取得显著的压缩比,并且在与量化结合时,能够实现更大的压缩,提供了一种资源高效且性能保持的大语言模型压缩技术。