oBERTa: 通过改进初始化、蒸馏和修剪机制提高稀疏转移学习的效果

Mar, 2023

oBERTa: 通过改进初始化、蒸馏和修剪机制提高稀疏转移学习的效果

oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes

Daniel Campos, Alexandre Marques, Mark Kurtz, ChengXiang Zhai

TL;DR这篇论文介绍了 oBERTa 语言模型的范围，它是一组易于使用的语言模型，允许自然语言处理从业者在不具备模型压缩专业知识的情况下获得 3.8 到 24.3 倍更快的模型，oBERTa 扩展了现有的剪枝、知识蒸馏和量化工作，并利用了冻结嵌入以改善知识蒸馏，在广泛的转移任务中提供更高的准确性。

Abstract

In this paper, we introduce the range of oberta language models, an easy-to-use set of language models, which allows Natural Language Proc

oberta language models model compression nlp transfer tasks

发现论文，激发创造

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

基于 BERT 的问答模型的结构化剪枝

本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Oct, 2019

最优 BERT 外科医生：可扩展和精确的二阶修剪方法，适用于大型语言模型

本文研究了 Transformer-based 语言模型的压缩方法，提出了基于 oBERT 的权重剪枝方法并将其应用在 BERT 模型的训练和 fine-tuning 中，同时利用多种压缩方法得到高压缩模型并在边缘设备上进行了部署。

Mar, 2022

Sparse*BERT：稀疏模型具有鲁棒性

本文研究了使用渐进式非结构化剪枝模型进行领域迁移和任务迁移的有效性，结果表明，使用泛领域蒙版语言模型进行预训练的模型可以在不需要大量超参数调整或特殊方法的情况下，成功应用于新领域和任务，同时表明使用非结构化剪枝技术的推断速度与参数数量大幅减少

May, 2022

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

自然语言理解中模型蒸馏和剪枝的稳健性挑战

本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响，并且在样本不确定性的基础上提出了一种偏见缓解框架，用于提高模型的泛化能力。

Oct, 2021

硬件友好的块结构剪枝优化 Transformer 大规模语言表示

本文研究了基于 transformer 的预训练语言模型的硬件友好型块结构裁剪技术，通过加入一项称为 “留组拉索” 的优化算法来进行裁剪操作并达到高压缩率，同时实验表明该方法适用于迁移到资源受限的边缘设备上。

Sep, 2020

CPU 上的快速 DistilBERT

本文介绍了一种新的在 CPU 上创建和运行快速 Transformer 模型的流水线，利用硬件感知剪枝、知识蒸馏和量化等模型压缩技术，通过优化稀疏和量化操作库的运行时引擎来提高推理效率，创造了一个 Fast DistilBERT 模型，其通过问题回答 SQuADv1.1 基准测试表现良好，性能比现有的 Neural Magic's DeepSparse 运行时性能提高了高达 50%，比 ONNX 计算时性能提升了最多 4.1 倍。

Oct, 2022

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

OpenBA-V2：使用快速多阶段剪枝达到 77.3% 的高压缩比

通过采用先进的训练目标和数据策略，OpenBA-V2 以最小的性能损失将 LLMs 压缩为更小的模型，这在资源有限的场景中有助于部署 LLMs。

May, 2024