OpenBA-V2：使用快速多阶段剪枝达到 77.3% 的高压缩比

May, 2024

OpenBA-V2：使用快速多阶段剪枝达到 77.3% 的高压缩比

OpenBA-V2: Reaching 77.3% High Compression Ratio with Fast Multi-Stage Pruning

Dan Qiao, Yi Su, Pinzheng Wang, Jing Ye, Wenjing Xie...

TL;DR通过采用先进的训练目标和数据策略，OpenBA-V2 以最小的性能损失将 LLMs 压缩为更小的模型，这在资源有限的场景中有助于部署 LLMs。

Abstract

large language models (LLMs) have played an important role in many fields due to their powerful capabilities.However, their massive number of parameters leads to high deployment requirements and incurs significan

large language models deployment requirements compression rate performance loss resource-limited scenarios

发现论文，激发创造

OpenBA：一个从零开始的开源 15B 双向语言模型预训练

大型语言模型（LLM）在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA，这是一个开源的 150 亿双语不对称 seq2seq 模型，为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA，并采用三阶段训练策略从头开始训练模型。我们的解决方案在只有 380B 令牌时也能达到与 LLaMA-70B 在 BELEBELE 基准上、BLOOM-176B 在 MMLU 基准上、GLM-130B 在 C-Eval（难）基准上相媲美的性能。本报告提供了有关类似模型的预训练的主要细节，包括预训练数据处理、双语 Flan 数据收集、启发我们模型架构设计的经验观察、不同阶段的训练目标以及其他增强技术。我们重构了代码以符合 Huggingface Transformers Library 的设计原则，使其对开发者更加方便使用，并在 https URL（此处提供链接）上发布了不同训练阶段的检查点。有关我们项目的更多详细信息，请访问 https URL（此处提供链接）。

Sep, 2023

百川 2：开放的大规模语言模型

Baichuan 2 是一系列大规模多语言语言模型，包含 70 亿和 130 亿参数，从头开始训练，共有 2.6 万亿个标记。Baichuan 2 在公共基准测试中表现出与其他类似规模的开源模型相匹配或超越的性能，如 MMLU、CMMLU、GSM8K 和 HumanEval，此外，Baichuan 2 在医学和法律等垂直领域表现出色。我们将发布所有的预训练模型检查点，以便研究界更好地理解 Baichuan 2 的训练动态。

Sep, 2023

多语言脑外科医生：可压缩大型语言模型，保留全部语言

本研究介绍了一种新颖的多语言 LLM 压缩方法 ——Multilingual Brain Surgeon（MBS），它通过按照模型训练数据集中语言分布的比例对各种语言进行校准数据抽样，克服了现有方法中以英语为中心的限制，并改善了现有英语为中心的压缩方法在低资源语言上的性能，从而提出了一种创新的多语言 LLM 压缩方法，解决了性能差异和提高了现有压缩技术的语言包容性。

Apr, 2024

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

Compresso: 结构化剪枝与合作促使学习紧凑的大型语言模型

通过合作的剪枝算法和大型语言模型自身，在数据收集和训练成本昂贵的挑战下，Compresso 通过在训练过程中学习最优的剪枝决策以及引入协同提示进一步增强了剪枝算法，成功将 LLaMA-7B 剪枝至 5.4B，并在阅读理解上超过 LLaMA-7B2.62%，在共同推理、阅读理解、MMLU 和 BBH 基准测试上分别获得了 2.21%、11.43%、7.04% 和 4.81% 的更高分数，明显优于一次性剪枝基线。

Oct, 2023

通过准确度预测器修剪大型语言模型

基于新的剪枝方法与准确度预测模型，本研究提出一种能够自动选择最佳模型的压缩方法，实验证明其有效性和高效性。相较于基准模型，Wikitext2 和 PTB 上的困惑度分别降低了 9.48% 和 5.76%，而平均 MMLU 准确度提高了 6.28%。

Sep, 2023

剪枝加速的 LLaMA：通过结构化剪枝加快语言模型预训练

利用结构修剪技术从预训练的大型语言模型生成更小但功能强大的语言模型。这项工作通过展示 Sheared-LLaMA 系列，在仅使用相当于从头训练这些模型所需计算量的 3％的情况下，将 LLaMA2-7B 模型修剪为 1.3B 和 2.7B 参数，优于等规模的开源模型，并提供了使用结构修剪来构建更小型语言模型更具成本效益的佐证。

Oct, 2023

内存高效的 NLLB-200：大规模多语言机器翻译模型的语言专家剪枝

提出了一种修剪方法，可在保持翻译质量的同时，移除多语言机器翻译中不相关的习惯用语，并检测出特定语种的专家，以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。

Dec, 2022

LLaMA-NAS：大规模语言模型高效神经架构搜索

提出了一种基于一次性 NAS 的高效方法，通过对 LLaMA2-7B 进行微调，并应用基于遗传算法的搜索方法找到更小、计算复杂度较低的网络架构，实现了模型大小减少和吞吐量加速，同时保持了准确性；此方法比修剪或稀疏化技术更有效和高效，并且证明了量化能够进一步减少网络的大小和复杂度，为自动创建适用于廉价、更易得到的硬件平台的大型语言模型提供了解决方案。

May, 2024

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019