通过剪枝压缩神经机器翻译模型

Jun, 2016

Compression of Neural Machine Translation Models via Pruning

Abigail See, Minh-Thang Luong, Christopher D. Manning

TL;DR本文探讨了三种基于大小的剪枝模式对 NMT 模型进行压缩，通过实验证明了剪枝技术是一种有效的压缩技术，并且可以通过再训练来恢复或甚至超越原始性能。

Abstract

neural machine translation (NMT), like many other deep learning domains, typically suffers from over-parameterization, resulting in large storage sizes. This paper examines three simple magnitude-based pruning schemes

neural machine translation magnitude-based pruning schemes weight pruning compression technique nmt architecture

发现论文，激发创造

神经机器翻译模型的稀疏性

本研究探讨神经机器翻译模型的超参数化问题，并通过实验证明删除的参数可以被再利用来提高基准模型的性能，其提高的翻译结果可以达到 0.8 个 BLEU 值，再利用的参数被用于增强底层的语义建模能力。

Oct, 2020

基于归因修剪的多任务语言模型任务特定压缩

本研究提出了一种新颖的多任务语言模型压缩方法，使用剪枝方法，通过使用属性方法确定哪些神经元对于执行特定任务是必不可少的，然后对于不重要的神经元进行任务特定的修剪，进一步将该方法扩展到适用于低资源和无监督的场景。通过实验可以发现，该压缩方法不需要训练，使用少量计算资源，且不会破坏语言模型的预先训练的知识，且可以显着优于基线修剪方法，并且在未见过领域的情况下仍然保持性能。

May, 2022

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

压缩多语言机器翻译模型遗漏了什么？

本研究分析了压缩技术对多语言神经机器翻译模型性能的影响，发现压缩方法会导致低资源语言的性能显著下降，甚至会放大内在的性别和语义偏差。

May, 2022

BERT 自动混合精度量化搜索

本文提出了一种针对 BERT 模型的自动混合精度量化框架，可以在子组水平同时进行量化和修剪，实现了压缩模型和保持同样性能的目标，并结合 DistilBERT 等方法获得了极轻量级模型。

Dec, 2021

文本深度学习模型压缩综述

本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法，并探讨了构建高效、小型模型的重要性以及相关研究成果。

Aug, 2020

从深度 Transformer 学习轻量级翻译模型

本文提出了一种新颖的基于群排列的知识蒸馏方法，将深度 Transformer 模型压缩为浅层模型，并通过随机遗漏 sub-layers 的 Skipping Sub-Layer 方法来进一步提高模型性能，在保证几乎不丢失 BLEU 的情况下，将学习时间和计算量降低了 8 倍，证明了该方法在多个基准测试中的有效性。

Dec, 2020

大型语言模型的结构裁剪

该研究通过结构化剪枝方法，以低秩分解参数化权重矩阵并在训练过程中自适应地移除秩 1 分量，提高了大型语言模型的压缩效果和训练 / 推理速度，并展示了该方法可应用于 BERT 模型的下游 fine-tuning 分类。

Oct, 2019

一次性剪枝：稀疏预训练语言模型

通过结合权重剪枝和模型蒸馏技术，我们提出了一种新的方法，用于训练稀疏的预训练变压器语言模型，这些模型可以快速高效地用于各种自然语言处理任务，并保持其稀疏性，同时我们进一步使用量化感知训练来将这些稀疏模型压缩为 8 位精度。我们证明了我们的稀疏预训练 BERT-Base、BERT-Large 和 DistilBERT 可以在多种自然语言任务中以极小的准确度损失传输其知识，是目前压缩 - to - 准确度比率最好的压缩 BERT-Base、BERT-Large 和 DistilBERT 方法。

Nov, 2021

剪枝还是不剪枝：探索模型压缩中剪枝的有效性

本文探讨在资源受限环境下，通过模型剪枝来压缩神经网络模型的方法，提出了一种简单、直接、易于应用的逐渐剪枝技术，并在多个模型 / 数据集上进行了比较，发现大型稀疏模型在保持较高精度的同时可减少 10 倍的参数数量。

Oct, 2017