May, 2024

语言模型中低秩分解的精度 - 效率权衡特征化

TL;DR大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索,本研究通过对低秩分解方法,特别是 Tucker 分解,在近期语言模型上的研究,包括一个开源的语言模型 Llama 2,详细分析和评估了准确性和效率之间的平衡,结果表明在模型减小 9% 的情况下,最小的准确率下降为 4% 到 10%,此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。