单亲家庭：来自单一预训练基础模型的家庭成员光谱

Jun, 2024

单亲家庭：来自单一预训练基础模型的家庭成员光谱

Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model

Habib Hajimolahoseini, Mohammad Hassanpour, Foozhan Ataiefard, Boxing Chen, Yang Liu

TL;DR本文介绍了一种新颖的渐进低秩分解（PLRD）方法，特别适用于大型语言模型的压缩。我们的方法利用预训练模型，然后通过逐步降低秩来将其解压缩为更小的尺寸。这种方法减少了计算开销和能源消耗，因为后续模型是基于原始模型而不需要重新训练。我们详细介绍了 PLRD 的实现方式，策略性地降低了张量秩，从而在模型性能和资源使用之间优化了权衡。通过大量实验展示了 PLRD 的有效性，表明使用 PLRD 方法仅使用 1B 标记训练的模型在性能上与传统训练的模型相当，同时只使用了 0.1％的标记。PLRD 的多功能性通过能够从单个基础模型生成多个模型尺寸，以适应不同的计算和内存预算。我们的研究结果表明，PLRD 可能为 LLM 的高效扩展设定了新的标准，从而在各种平台上使先进的人工智能更加可行。

Abstract

This paper introduces a novel method of progressive low rank decomposition (PLRD) tailored for the compression of large language models. O

progressive low rank decomposition compression large language models computational overhead energy consumption

发现论文，激发创造

LORD：单语代码 LLM 的低秩分解用于一次性压缩

通过 Low Rank Decomposition (LoRD) 来压缩大型语言模型（LLMs）以及用于单语代码生成，能够大幅减少参数，提供速度提升，并且保持可微分性和可训练性，且与现有高效浮点矩阵内核兼容，具备潜力提高模型压缩效果。

Sep, 2023

基于选取：预训练大型语言模型的低秩分解与目标应用

通过低秩分解方法，我们可以削减大型语言模型的冗余组件，压缩模型大小并保持与最先进压缩技术相当的准确性。

May, 2024

重新思考压缩：大型语言模型中潜在特征的简化建模

通过降阶建模和重参数化，本文提出了一种创新的大规模语言模型压缩方法，可在对内存和时间有严格限制的条件下，以逐层方式对十亿级模型进行压缩，与当前流行的结构化修剪方法相比，展现出卓越的效果。

Dec, 2023

医学基础模型的低秩知识分解

本文通过知识分解的方法，设计了一种名为 Low-Rank Knowledge Decomposition (LoRKD) 的新型框架，将医学基础模型拆分为多个轻量级专家模型，以提高特定医学任务的性能和专业化，并在资源消耗上达到平衡。实验结果表明，拆分后的模型在性能和可迁移性方面表现良好，甚至超过原始的基础模型。

Apr, 2024

使用顺序冻结和秩量化加速低秩分解网络的训练

通过优化秩和顺序冻结分解层，本文提出的两种技术能够在保持准确度不变的前提下，提高模型的训练和推理速度达到 60% 和 37%。

Sep, 2023

语言模型压缩的低秩剪枝和分解

利用网络剪枝与矩阵分解相结合的方式，提出了一种有效的预训练语言模型的模型压缩方法，通过新的初始化技术和训练过程优化技巧，能够在保持性能的同时实现更加高效的模型压缩。

Jun, 2023

语言模型中低秩分解的精度 - 效率权衡特征化

大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索，本研究通过对低秩分解方法，特别是 Tucker 分解，在近期语言模型上的研究，包括一个开源的语言模型 Llama 2，详细分析和评估了准确性和效率之间的平衡，结果表明在模型减小 9% 的情况下，最小的准确率下降为 4% 到 10%，此研究表明低秩分解可以成为大规模语言模型应用的有前途的方向。

May, 2024

使用幂律秩合奏实现语言建模

该论文提出了一种灵活的 n-gram 语言建模框架 ——Power Low Rank Ensembles，使用低秩矩阵和张量的集合来获得单词上下文中平滑的概率估计，该方法可以理解为 n-gram 建模到非整数 n 的推广，可用于诸如绝对折扣和 Kneser-Ney 平滑等标准技术。PLRE 训练有效，并且在大型语料库上的困惑度和下游机器翻译任务中的 BLEU 分数方面优于最先进的修改的 Kneser Ney 基线方法。

Dec, 2013

PRILoRA：修剪和增大秩的低秩适应

PRILoRA 通过在线性分配不同的秩给每一层并在训练过程中进行剪枝，考虑到权重的临时大小和给定层的输入的累积统计信息，验证了其在八个 GLUE 基准测试中的有效性，取得了最新的技术成果。

Jan, 2024

LaMDA：通过频谱分解的低维度调整进行大模型微调

通过光谱分解低维适应性的大型模型微调，LaMDA 可以在减少可训练参数和峰值 GPU 内存使用的同时，达到与现有替代方案相当甚至更好的性能。

Jun, 2024