适用于循环神经网络语言模型的瘦身嵌入层

AAAINov, 2017

适用于循环神经网络语言模型的瘦身嵌入层

Slim Embedding Layers for Recurrent Neural Language Models

Zhongliang Li, Raymond Kulhanek, Shaojun Wang, Yunxin Zhao, Shuang Wu

TL;DR本文介绍了一种通过在 RNN 中的输入和输出嵌入层共享参数来压缩模型参数的方法，实验证明该方法可大幅减小模型参数的大小，但仍能在自然语言处理中保持模型的准确性和性能表现。

Abstract

recurrent neural language models are the state-of-the-art models for language modeling. When the vocabulary size is large, the space taken to store the model parameters becomes the bottleneck for the use of recurrent neural language models. In this paper, we introduce a simple

recurrent neural language models space compression method embedding layers parameter reduction natural language processing

发现论文，激发创造

通过稀疏词表示压缩神经语言模型

本文提出使用稀疏单词表示来压缩神经语言模型的参数量，以减少计算资源需求并提高性能表现。

Oct, 2016

学习紧凑循环神经网络

本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络（LSTM）的机制，探究了在不损失性能的情况下完善紧凑结构的可能性，并且发现在底层使用结构矩阵，在顶层使用共享低秩因子的混合策略特别有效，在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%，仅仅增加了 0.3% 的误差率。

Apr, 2016

用张量嵌入层实现模型高效压缩

本文介绍了一种使用 Tensor Train（TT）分解来压缩模型中的嵌入层的新方法，并在自然语言处理的广泛基准测试中评估了其性能与压缩比之间的平衡。

Jan, 2019

自然语言处理的贝叶斯压缩

本文提出了一种基于贝叶斯稀疏化技术的 RNN 压缩方法，在不需要进行时间耗费的超参数调整的情况下，将 RNN 压缩数十倍甚至数百倍；同时提出了一种对词汇进行稀疏化过滤的扩展模型，可以更进一步地压缩 RNN。实验结果表明所选的单词是可解释的。

Oct, 2018

基于压缩的循环神经网络用于高效语言建模

本文考虑了针对循环神经网络的多种压缩技术，特别关注大词汇量带来的高维输出问题，探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法，以及大小、适用性和困惑度的取舍，最终提出一种压缩循环神经网络的通用流程，并使用 Penn Treebank 数据集展示了矩阵分解技术在速度和压缩 - 困惑度平衡方面的最佳结果。

Feb, 2019

循环神经网络语言模型的扩展

本论文调查了循环神经网络语言模型（RNNLMs）的规模特性，对在 GPU 上训练非常大的 RNN 的方法进行了讨论，并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高，但相比于 N 元模型，RNNLMs 在标准测试中得到了更低的困惑度。此外，我们训练了目前已知的最大 RNN，并在 ASR 任务上表现出 18% 的相对词误差率提升，在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。

Feb, 2015

语言建模的神经网络压缩

本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank（PTB）数据集，我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性，并发现传统的 LSTM 网络要么拥有高空间复杂度，要么具有相当大的推理时间；这个问题对于移动应用程序尤其关键，因为不适用于与远程服务器进行不断的交互。

Aug, 2017

基于子空间嵌入的轻量级神经语言模型适应

我们提出了一种新的紧凑嵌入结构，通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程，来减少预训练语言模型的内存占用，牺牲高达 4% 的绝对准确率。我们的实验结果表明，子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比，达到了超过 99.8% 的压缩率。

Aug, 2023

LightRNN: 记忆和计算高效的循环神经网络

提出了一种新的 RNN 算法，使用 2-Component 共享嵌入表示单词，并成功地将其应用于语言建模任务，大大减少了模型大小和训练时间。

Oct, 2016

探索语言建模的极限

本文研究了递归神经网络在大规模语言建模中的最新进展和应用，对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨，并在 One Billion Word Benchmark 上进行了详尽的研究，最佳单一模型将习惯度从 51.3 降低到 30.0，而模型集成则创下了 41.0 到 23.7 的新纪录，在总结中，研究结果可供自然语言处理和机器学习界进一步研究和提高。

Feb, 2016