GroupReduce: 块状低秩逼近神经语言模型压缩

Jun, 2018

GroupReduce: 块状低秩逼近神经语言模型压缩

GroupReduce: Block-Wise Low-Rank Approximation for Neural Language Model Shrinking

Patrick H. Chen, Si Si, Yang Li, Ciprian Chelba, Cho-jui Hsieh

TL;DR本文提出了一种新的神经语言模型压缩方法，基于基于词汇划分的低秩矩阵逼近和词汇分布的幂律分布，相比传统压缩方法更优，在 OBW 数据集上实现了 6.6 倍的压缩率，采用量化可以实现 26 倍的压缩率，而且模型困惑度几乎没有降低。

Abstract

model compression is essential for serving large deep neural nets on devices with limited resources or applications that require real-time responses. As a case study, a state-of-the-art neural language model usua

model compression neural language model low-rank matrix approximation vocabulary-partition quantization

发现论文，激发创造

基于压缩的循环神经网络用于高效语言建模

本文考虑了针对循环神经网络的多种压缩技术，特别关注大词汇量带来的高维输出问题，探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法，以及大小、适用性和困惑度的取舍，最终提出一种压缩循环神经网络的通用流程，并使用 Penn Treebank 数据集展示了矩阵分解技术在速度和压缩 - 困惑度平衡方面的最佳结果。

Feb, 2019

语言建模的神经网络压缩

本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank（PTB）数据集，我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性，并发现传统的 LSTM 网络要么拥有高空间复杂度，要么具有相当大的推理时间；这个问题对于移动应用程序尤其关键，因为不适用于与远程服务器进行不断的交互。

Aug, 2017

基于低秩矩阵分解的文本分类在线嵌入压缩

本研究提出一种深度学习模型的压缩方法，利用低秩矩阵因式分解来压缩自然语言处理中的字词嵌入层，经过实验证明可以在 90% 的压缩比下保持精度不受影响，并且在句子分类任务上表现优于其他方法，同时还引入了一种新的学习率调度算法 CALR，其在句子分类基准测试中表现出优越性。

Nov, 2018

通过稀疏词表示压缩神经语言模型

本文提出使用稀疏单词表示来压缩神经语言模型的参数量，以减少计算资源需求并提高性能表现。

Oct, 2016

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

基于特征的大型语言模型通过贝叶斯优化的低秩压缩

近年来，大型语言模型（LLMs）在自然语言处理方面取得了重要进展，但其规模的增大增加了计算负担，需要在效率和性能之间取得平衡。为了解决 LLMs 中低秩压缩的挑战，我们对大模型的低秩特性进行了实证研究，并提出了一种适用于 LLMs 的低秩压缩方法，该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在 LLaMA-2 模型上的实验表明，我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳，能够保持模型的性能。

May, 2024

基于低秩和稀疏逼近的大型语言模型的结构化压缩

本文提出了一种新颖的模型压缩技术 LoSparse，该技术通过低秩矩阵和稀疏矩阵的加和来近似一个权重矩阵，结合了低秩逼近和剪枝的优点，避免了它们的局限性，在自然语言理解、问答和生成等任务中，它显著优于现有的压缩方法。

Jun, 2023

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

大型语言模型的零数据压缩和降噪

基于大型语言模型的权重分解以及压缩方法，通过新的无需语料库参与、保持正交性的数据无关联 Rank-k 近似方法，成功压缩了 80% 的参数并保留了原始性能的 93.43%。同时，对经过 Rank-k 近似的权重矩阵进行了深入研究以验证假设。

Feb, 2024

学习紧凑循环神经网络

本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络（LSTM）的机制，探究了在不损失性能的情况下完善紧凑结构的可能性，并且发现在底层使用结构矩阵，在顶层使用共享低秩因子的混合策略特别有效，在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%，仅仅增加了 0.3% 的误差率。

Apr, 2016