适用于循环神经网络语言模型的瘦身嵌入层
本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络(LSTM)的机制,探究了在不损失性能的情况下完善紧凑结构的可能性,并且发现在底层使用结构矩阵,在顶层使用共享低秩因子的混合策略特别有效,在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%,仅仅增加了 0.3% 的误差率。
Apr, 2016
本文提出了一种基于贝叶斯稀疏化技术的 RNN 压缩方法,在不需要进行时间耗费的超参数调整的情况下,将 RNN 压缩数十倍甚至数百倍;同时提出了一种对词汇进行稀疏化过滤的扩展模型,可以更进一步地压缩 RNN。实验结果表明所选的单词是可解释的。
Oct, 2018
本文考虑了针对循环神经网络的多种压缩技术,特别关注大词汇量带来的高维输出问题,探讨剪枝、量化和矩阵分解在语言模型中的有效压缩方法,以及大小、适用性和困惑度的取舍,最终提出一种压缩循环神经网络的通用流程,并使用 Penn Treebank 数据集展示了矩阵分解技术在速度和压缩 - 困惑度平衡方面的最佳结果。
Feb, 2019
本论文调查了循环神经网络语言模型(RNNLMs)的规模特性,对在 GPU 上训练非常大的 RNN 的方法进行了讨论,并探讨了有关模型大小、训练集大小、计算成本和内存方面的扩展性问题。研究结果展现出虽然训练成本更高,但相比于 N 元模型,RNNLMs 在标准测试中得到了更低的困惑度。此外,我们训练了目前已知的最大 RNN,并在 ASR 任务上表现出 18% 的相对词误差率提升,在最近发布的十亿字语言建模基准测试中呈现出新的最低困惑度、机器翻译的 1 BLEU 点表现提升以及词预测方面的 17% 相对命中率提高。
Feb, 2015
本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank(PTB)数据集,我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性,并发现传统的 LSTM 网络要么拥有高空间复杂度,要么具有相当大的推理时间;这个问题对于移动应用程序尤其关键,因为不适用于与远程服务器进行不断的交互。
Aug, 2017
我们提出了一种新的紧凑嵌入结构,通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程,来减少预训练语言模型的内存占用,牺牲高达 4% 的绝对准确率。我们的实验结果表明,子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比,达到了超过 99.8% 的压缩率。
Aug, 2023
提出了一种新的 RNN 算法,使用 2-Component 共享嵌入表示单词,并成功地将其应用于语言建模任务,大大减少了模型大小和训练时间。
Oct, 2016
本文研究了递归神经网络在大规模语言建模中的最新进展和应用,对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨,并在 One Billion Word Benchmark 上进行了详尽的研究,最佳单一模型将习惯度从 51.3 降低到 30.0,而模型集成则创下了 41.0 到 23.7 的新纪录,在总结中,研究结果可供自然语言处理和机器学习界进一步研究和提高。
Feb, 2016