文本深度学习模型压缩综述
本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank(PTB)数据集,我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性,并发现传统的 LSTM 网络要么拥有高空间复杂度,要么具有相当大的推理时间;这个问题对于移动应用程序尤其关键,因为不适用于与远程服务器进行不断的交互。
Aug, 2017
本文考虑了针对循环神经网络的多种压缩技术,特别关注大词汇量带来的高维输出问题,探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法,以及大小、适用性和困惑度的取舍,最终提出一种压缩循环神经网络的通用流程,并使用 Penn Treebank 数据集展示了矩阵分解技术在速度和压缩 - 困惑度平衡方面的最佳结果。
Feb, 2019
本文总结了压缩预训练 Transformer 模型的研究进展,尤其关注流行的 BERT 模型的最佳压缩实践和方法,提出未来发展的方向,以达到轻量、高准确性和通用性的自然语言处理模型。
Feb, 2020
这篇论文研究了大型语言模型的压缩和高效推理方法,介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法,并提出了中型模型和真正大型模型的区分。此外,还介绍了一些用于大型模型高效推理的成熟框架,可以支持基本的压缩或加速算法,极大地方便了用户的模型部署。
Feb, 2024
本文旨在通过将深度神经网络 (LSTM) 模型的知识提取到基于卷积神经网络 (CNN) 的模型中,来降低自然语言识别任务(如文本分类)中的推理时间,以实现模型的简化、压缩和加速。
Aug, 2022
本文对深度神经网络模型压缩和加速的最新技术进行了回顾,介绍了参数修剪、量化、转移 / 紧凑卷积滤镜和知识蒸馏等四类技术及其表现、应用、优点和缺点,同时探讨了评估矩阵、评估模型表现所使用的主要数据集和最近的基准努力,并讨论了面临的挑战和未来方向。
Oct, 2017
本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪,发现量化和知识蒸馏提供了比修剪更大的好处,同时多种方法的组合具有协同减小模型大小的效果。
Aug, 2022
研究表明,即使较小的 Transformer 模型在每次迭代中执行更快,较宽且较深的模型在明显更少的步骤中收敛。此外,大型模型比小型模型更 robust,因此,高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性
Feb, 2020
该论文提供了针对大型语言模型的模型压缩技术的综述调查,涵盖量化、修剪、知识蒸馏等各种方法,并探讨了压缩后的大型语言模型的基准策略和评估指标,旨在促进效率和实际应用的提升,为领域的未来发展奠定了基础。
Aug, 2023