Jun, 2024

混合规模:大型语言模型的内存高效自适应二值化

TL;DR引入了一种名为二进制混合缩放(BinaryMoS)的新型二进制化技术,它采用多种尺度专家和自适应生成尺度因子的方式,通过上下文调整二进制权重值,提高二进制化语言模型的表示能力,同时与传统静态二进制化方法保持相似的压缩效率,并在各种自然语言处理任务中超过了传统的二进制化技术以及 2 位量化方法。