循环记忆阵列结构
本文介绍了一种基于LSTM的循环神经网络架构,用于训练大词汇量的语音识别声学模型,与传统的RNN和深度神经网络进行了比较。结果表明,LSTM模型收敛速度快,对于相对较小的模型具有最先进的语音识别表现。
Feb, 2014
本文针对典型 Long Short-Term Memory(LSTM)网络的各种计算组件的角色和实用性进行了大规模分析,并在三个代表性任务上比较了八种 LSTM 变体。结果表明,遗忘门和输出激活函数是LSTM架构最关键的组件。此外,在研究的超参数方面,我们发现它们几乎是独立的,并提出了调整它们的有效指导方针。
Mar, 2015
本文介绍了Grid Long Short-Term Memory,这是一种由LSTM单元组成的多维网格网络,可用于向量、序列或图像等更高维的数据。该网络在现有深度LSTM架构中的不同之处在于单元不仅在网络层之间连接,也连接在数据的时空维度上,提供了一种统一的使用LSTM进行深层次和序列计算的方法。我们将模型应用于15位整数加法和序列记忆等算法任务,发现其能够显著优于标准LSTM。我们还给出了两个实证任务的结果。2D Grid LSTM在维基百科字符预测基准测试中达到了1.47位/字符,这是神经方法中的最佳结果。此外,我们使用Grid LSTM定义了一种新的二维翻译模型Reencoder,并表明其在中英翻译任务上优于基于短语的参考系统。
Jul, 2015
本论文介绍了一种名为平行LSTM的RNN模型,可以并行处理多个同步输入序列以预测共同输出。在自动电视节目分类任务上的实验表明,该方法优于基线n-gram模型和最先进的LSTM方法。
Feb, 2017
该论文提出了一种内在稀疏结构方法,通过独立地减小LSTM单元内基本结构的尺寸并保持尺寸一致性来实现结构上稀疏的LSTM,这种方法可以显著提高模型的速度而不会损失模型性能,并成功地被应用于不同的RNN架构。
Sep, 2017
研究如何通过自然语言数据训练LSTM模型,并发现这种数据能够帮助LSTM模型更好地记忆并回忆输入的令牌,同时LSTM也会通过某些神经元来计算输入的时间步数。
May, 2018
本研究提出了一种新的LSTM训练方式,使得门控单元的输出更加容易解释,经过实证研究,发现通过将门控单元的输出值推向0或1,可以更好地控制信息流,从而提高模型的泛化能力和压缩率。
Jun, 2018
本研究使用计算分析验证了标准LSTM和三种SLIM LSTM层性能的比较,发现其中某些SLIM LSTM层可以在卷积加循环神经网络架构中与标准LSTM层的表现相当。
Jan, 2019