使用 pQRNN 将大型语言模型提炼成小型高效的学生模型

Jan, 2021

使用 pQRNN 将大型语言模型提炼成小型高效的学生模型

Distilling Large Language Models into Tiny and Effective Students using pQRNN

Prabhu Kaliamoorthi, Aditya Siddhant, Edward Li, Melvin Johnson

TL;DR介绍了 pQRNN，这是一种基于投影的嵌入式神经编码器，非常适合自然语言处理任务。通过深入研究其参数、数据增强和蒸馏设置等因素，结果表明 pQRNN 对于延迟敏感型应用非常适合，同时可以利用大型 mBERT 等预训练模型。

Abstract

Large pre-trained multilingual models like mBERT, XLM-R achieve state of the art results on language understanding tasks. However, they are not well suited for latency critical applications on both servers and edge devices. It's important to reduce the memory and compute resources required by these models. To this end, we propose →

pqrnn neural encoder natural language processing distillation latency-sensitive applications

发现论文，激发创造

pNLP-Mixer: 一种用于语言处理的高效全 MLP 结构

介绍了一种低内存、低延迟基于 MLP-Mixer 的 pNLP-Mixer 模型，通过在语言学上指导投影层，实现了高效的语义分析，达到了与 38 倍参数的 mBERT 相当的性能。

Feb, 2022

多尺度下神经语言建模分析

本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展，提高了对大型语料库的处理能力，并在字符级（Penn Treebank，enwik8）和单词级（WikiText-103）数据集上分别取得了最新的最高水平结果，而且只用了一台现代 GPU，最快只需 12 小时（WikiText-103）或 2 天（enwik8）即可。

Mar, 2018

加载所需：多语言 BERT 的较小版本

本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型，研究结果表明，相比蒸馏的方法，此种方法能在保持性能的情况下，将模型总参数减少达 45% 左右。

Oct, 2020

语言建模的神经网络压缩

本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank（PTB）数据集，我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性，并发现传统的 LSTM 网络要么拥有高空间复杂度，要么具有相当大的推理时间；这个问题对于移动应用程序尤其关键，因为不适用于与远程服务器进行不断的交互。

Aug, 2017

边缘设备上的量化 Transformer 语言模型实现

大规模基于 transformer 的模型如 BERT，可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式，用于声誉分析等任务，其性能较好且具有隐私保护特性。

Oct, 2023

PQLM -- 多语言去中心化便携式量子语言模型用于隐私保护

本文提出了一种高度可移植的量子语言模型 (PQLM)，它可以在经典计算机上向下游任务轻松传输信息，并演示了在经典计算机上将 PQLM 的词嵌入有效地应用于下游任务。该 PQLM 具有与其经典对应物相当的性能，并为量子预训练语言模型的理论基础奠定了基础。

Oct, 2022

DQ-BART: 联合蒸馏和量化的高效序列转序列模型

本文针对预训练模型在资源受限情况下，因占用大量内存和高延迟而面临的挑战，提出联合蒸馏和量化的方法，成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比，而性能相对于完整精度版本并没有明显下降，并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析，此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。

Mar, 2022

移动设备神经语言模型自适应修剪

本文通过在 quasi-recurrent neural networks (QRNNs) 基础上应用剪枝技术来提供一种选择不同操作点的 “旋钮”，并提出一种使用可忽略量的内存恢复一些 perplexity 的简单技术，并在树莓派上考虑 perplexity 和能耗两方面的实证评估，证明了哪种方法能提供最佳的 perplexity - 能耗操作点，其中一种技术能够在一个操作点上相对于现有技术，提供 40％的能量节省和仅 17％的相对 perplexity 增加。

Sep, 2018

Q8BERT：量化 8 位 BERT

本文介绍了如何在 BERT 的 fine-tuning 阶段进行量化感知的训练，以将 BERT 压缩 4 倍并加速推理速度。

Oct, 2019

文本深度学习模型压缩综述

本文综述了近年来自然语言处理和信息检索领域的深度学习模型在压缩方面的六种方法，并探讨了构建高效、小型模型的重要性以及相关研究成果。

Aug, 2020