基于选取:预训练大型语言模型的低秩分解与目标应用
提出一种名为LLM-Pruner的方法,在保持多任务求解和语言生成能力的同时,通过结构修剪来压缩LLM,使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力,并且只需要50K数据,在3小时内就能通过调整技术(LoRA)有效地恢复性能。
May, 2023
该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023
通过Low Rank Decomposition (LoRD)来压缩大型语言模型(LLMs)以及用于单语代码生成,能够大幅减少参数,提供速度提升,并且保持可微分性和可训练性,且与现有高效浮点矩阵内核兼容,具备潜力提高模型压缩效果。
Sep, 2023
通过降阶建模和重参数化,本文提出了一种创新的大规模语言模型压缩方法,可在对内存和时间有严格限制的条件下,以逐层方式对十亿级模型进行压缩,与当前流行的结构化修剪方法相比,展现出卓越的效果。
Dec, 2023
基于大型语言模型的权重分解以及压缩方法,通过新的无需语料库参与、保持正交性的数据无关联Rank-k近似方法,成功压缩了80%的参数并保留了原始性能的93.43%。同时,对经过Rank-k近似的权重矩阵进行了深入研究以验证假设。
Feb, 2024
通过跳过Transformer LLMs中后面的attention子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索,本研究通过对低秩分解方法,特别是Tucker分解,在近期语言模型上的研究,包括一个开源的语言模型Llama 2,详细分析和评估了准确性和效率之间的平衡,结果表明在模型减小9%的情况下,最小的准确率下降为4%到10%,此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。
May, 2024
近年来,大型语言模型(LLMs)在自然语言处理方面取得了重要进展,但其规模的增大增加了计算负担,需要在效率和性能之间取得平衡。为了解决LLMs中低秩压缩的挑战,我们对大模型的低秩特性进行了实证研究,并提出了一种适用于LLMs的低秩压缩方法,该方法通过汇总协方差矩阵的特征分布精确估计和贝叶斯优化策略来分配低秩维度。我们在LLaMA-2模型上的实验表明,我们的方法在相同的压缩比下比现有的强结构剪枝和低秩压缩技术表现更佳,能够保持模型的性能。
May, 2024
现代大型语言模型(LLMs)由数十亿个元素组成的矩阵,其存储和处理对计算资源和内存使用非常苛刻,本文研究了在不同层的LLMs内矩阵低秩结构的产生和梯度动态之间的相关性,提出了一种统一的权重低秩投影(WeLore)方法,将权重压缩和内存高效微调融为一体,通过利用奇异值的重尾分布来确定适当的秩降缩放比例,能够显著减少内存和计算资源占用,且低秩组件(LRCs)具有更好的微调能力并能够在性能上接近或超过完全微调的训练损失轨迹和性能。
Jul, 2024
本研究解决了大型语言模型推理过程中面临的高内存消耗和处理速度慢的问题,特别是在资源受限的设备上。通过探讨量化、知识蒸馏和剪枝等模型级压缩方法,提供了有效的压缩技术,以保持模型性能并提升其在多种平台上的可用性和实用性。
Sep, 2024