文本深度学习模型压缩综述

KDDAug, 2020

Compression of Deep Learning Models for Text: A Survey

Manish Gupta, Puneet Agrawal

TL;DR本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法，并探讨了构建高效、小型模型的重要性以及相关研究成果。

Abstract

In recent years, the fields of natural language processing (NLP) and information retrieval (IR) have made tremendous progress thanksto deep learning models like Recurrent Neural Networks (RNNs), Gated Recurrent U

natural language processing information retrieval deep learning models compression methods model size

发现论文，激发创造

Transformer 压缩综述

在该研究中，作者通过综述了解压缩方法对 Transformer 模型在自然语言处理和计算机视觉领域的应用，并对修剪、量化等压缩方法进行了分类和讨论。

Feb, 2024

语言建模的神经网络压缩

本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank（PTB）数据集，我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性，并发现传统的 LSTM 网络要么拥有高空间复杂度，要么具有相当大的推理时间；这个问题对于移动应用程序尤其关键，因为不适用于与远程服务器进行不断的交互。

Aug, 2017

基于压缩的循环神经网络用于高效语言建模

本文考虑了针对循环神经网络的多种压缩技术，特别关注大词汇量带来的高维输出问题，探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法，以及大小、适用性和困惑度的取舍，最终提出一种压缩循环神经网络的通用流程，并使用 Penn Treebank 数据集展示了矩阵分解技术在速度和压缩 - 困惑度平衡方面的最佳结果。

Feb, 2019

基于 Transformer 的大规模模型压缩：以 BERT 为例的案例研究

本文总结了压缩预训练 Transformer 模型的研究进展，尤其关注流行的 BERT 模型的最佳压缩实践和方法，提出未来发展的方向，以达到轻量、高准确性和通用性的自然语言处理模型。

Feb, 2020

大型语言模型的模型压缩与高效推理：调研

这篇论文研究了大型语言模型的压缩和高效推理方法，介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法，并提出了中型模型和真正大型模型的区分。此外，还介绍了一些用于大型模型高效推理的成熟框架，可以支持基本的压缩或加速算法，极大地方便了用户的模型部署。

Feb, 2024

文本分类的模型混合

本文旨在通过将深度神经网络 (LSTM) 模型的知识提取到基于卷积神经网络 (CNN) 的模型中，来降低自然语言识别任务（如文本分类）中的推理时间，以实现模型的简化、压缩和加速。

Aug, 2022

深度神经网络模型压缩与加速综述

本文对深度神经网络模型压缩和加速的最新技术进行了回顾，介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点，同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力，并讨论了面临的挑战和未来方向。

Oct, 2017

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023