使用 pQRNN 将大型语言模型提炼成小型高效的学生模型
介绍了一种低内存、低延迟基于 MLP-Mixer 的 pNLP-Mixer 模型,通过在语言学上指导投影层,实现了高效的语义分析,达到了与 38 倍参数的 mBERT 相当的性能。
Feb, 2022
本论文通过对现有 LSTMs 和 QRNNs 语言模型的扩展,提高了对大型语料库的处理能力,并在字符级(Penn Treebank,enwik8)和单词级(WikiText-103)数据集上分别取得了最新的最高水平结果,而且只用了一台现代 GPU,最快只需 12 小时(WikiText-103)或 2 天(enwik8)即可。
Mar, 2018
本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型,研究结果表明,相比蒸馏的方法,此种方法能在保持性能的情况下,将模型总参数减少达 45% 左右。
Oct, 2020
本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank(PTB)数据集,我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性,并发现传统的 LSTM 网络要么拥有高空间复杂度,要么具有相当大的推理时间;这个问题对于移动应用程序尤其关键,因为不适用于与远程服务器进行不断的交互。
Aug, 2017
大规模基于 transformer 的模型如 BERT,可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式,用于声誉分析等任务,其性能较好且具有隐私保护特性。
Oct, 2023
本文提出了一种高度可移植的量子语言模型 (PQLM),它可以在经典计算机上向下游任务轻松传输信息,并演示了在经典计算机上将 PQLM 的词嵌入有效地应用于下游任务。该 PQLM 具有与其经典对应物相当的性能,并为量子预训练语言模型的理论基础奠定了基础。
Oct, 2022
本文针对预训练模型在资源受限情况下,因占用大量内存和高延迟而面临的挑战,提出联合蒸馏和量化的方法,成功实现了在生成任务的多个数据集上 16.5 倍的模型足迹压缩比,而性能相对于完整精度版本并没有明显下降,并在压缩比达到 27.7 倍的情况下提供了性能和效率的权衡分析,此方法在语言生成任务中是首次有效地利用蒸馏和量化成功压缩预训练的序列到序列模型。
Mar, 2022
本文通过在 quasi-recurrent neural networks (QRNNs) 基础上应用剪枝技术来提供一种选择不同操作点的 “旋钮”,并提出一种使用可忽略量的内存恢复一些 perplexity 的简单技术,并在树莓派上考虑 perplexity 和能耗两方面的实证评估,证明了哪种方法能提供最佳的 perplexity - 能耗操作点,其中一种技术能够在一个操作点上相对于现有技术,提供 40%的能量节省和仅 17%的相对 perplexity 增加。
Sep, 2018