LSTM 网络的分解技巧
本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络(LSTM)的机制,探究了在不损失性能的情况下完善紧凑结构的可能性,并且发现在底层使用结构矩阵,在顶层使用共享低秩因子的混合策略特别有效,在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%,仅仅增加了 0.3% 的误差率。
Apr, 2016
本文提出了一种将低秩矩阵分解算法应用于 LSTM 网络不同递归操作的方法,探讨了在不同自然语言处理任务和模型组成部分中的有效性,并发现加性递归比乘性递归更重要。两种设置下我们进行了比较:1)压缩语言模型中核心 LSTM 递归,2)压缩在三个下游自然语言处理任务中评估 ELMo 的 biLSTM 层。
Aug, 2019
本文介绍了一种新的神经网络模型,即 Tensorized LSTM,它使用张量来表示隐藏状态,通过跨层卷积来更新这些状态。该模型在不增加额外参数的情况下,有效地扩展了网络的容量,并将深度计算合并为时序计算,从而提高了其性能。实验结果表明,该模型在多项挑战性的序列学习任务中表现出很大的潜力。
Nov, 2017
我们修改并扩展 LSTM 的门控机制和记忆结构,得到了 xLSTM 模型,该模型在性能和规模上与最先进的 Transformer 模型和状态空间模型相比表现出色。
May, 2024
基于训练后的秩选择方法 Rank-Tuning,结合训练适应性,我们的方法能够实现高压缩率而无性能损失或性能损失较小,数值实验结果表明,我们可以将循环神经网络压缩至最多 14 倍,最多相对性能降低 1.4%。
Oct, 2023
本文研究了针对基于循环神经网络的语言建模问题的几种压缩技术。通过使用 Penn Treebank(PTB)数据集,我们比较了 LSTM 网络的剪枝、量化、低秩分解、张量列车分解对模型大小和适用于快速推理的适合性,并发现传统的 LSTM 网络要么拥有高空间复杂度,要么具有相当大的推理时间;这个问题对于移动应用程序尤其关键,因为不适用于与远程服务器进行不断的交互。
Aug, 2017
该研究探讨如何将矩阵分解为多个稀疏矩阵,提出了一种在随机性和稀疏性假设下的算法,该算法能够恢复深度学习网络中各层之间边的结构、隐藏单元的值,矩阵分解、稀疏恢复、字典学习与深度学习之间具有密切关联。
Nov, 2013
本文提出了两种采用混合维度嵌入的矩阵分解模型,可以采用交替最小二乘法以大规模并行的方式进行优化,并针对用户和项目的流行度偏斜实现了是用稀疏,混合维度或共享嵌入降低参数数量和过度拟合的研究。
May, 2022
该技术报告描述了使用 MNIST 和 UW3 数据库对 LSTM 网络进行基准测试的结果,并探讨了不同架构和超参数选择对性能的影响。该研究表明:(1)LSTM 性能平滑地取决于学习率,(2)批处理和动量对性能没有显着影响,(3)softmax 训练优于最小二乘训练,(4)孔径单元无用,(5)标准非线性函数(tanh 和 sigmoid)性能最佳,(6)将双向训练与 CTC 相结合比其他方法表现更好。
Aug, 2015