循环记忆阵列结构
本文介绍了 Grid Long Short-Term Memory,这是一种由 LSTM 单元组成的多维网格网络,可用于向量、序列或图像等更高维的数据。该网络在现有深度 LSTM 架构中的不同之处在于单元不仅在网络层之间连接,也连接在数据的时空维度上,提供了一种统一的使用 LSTM 进行深层次和序列计算的方法。我们将模型应用于 15 位整数加法和序列记忆等算法任务,发现其能够显著优于标准 LSTM。我们还给出了两个实证任务的结果。2D Grid LSTM 在维基百科字符预测基准测试中达到了 1.47 位 / 字符,这是神经方法中的最佳结果。此外,我们使用 Grid LSTM 定义了一种新的二维翻译模型 Reencoder,并表明其在中英翻译任务上优于基于短语的参考系统。
Jul, 2015
本文针对典型 Long Short-Term Memory(LSTM)网络的各种计算组件的角色和实用性进行了大规模分析,并在三个代表性任务上比较了八种 LSTM 变体。结果表明,遗忘门和输出激活函数是 LSTM 架构最关键的组件。此外,在研究的超参数方面,我们发现它们几乎是独立的,并提出了调整它们的有效指导方针。
Mar, 2015
我们将循环神经网络扩展到包含几个灵活的时间尺度,这在机械上提高了它们对具有长期记忆或高度不同时间尺度进程的处理能力。通过比较普通和扩展的长短期记忆网络(LSTMs)在预测已知具有长期记忆的资产价格波动性方面的能力,我们发现扩展的 LSTMs 所需的训练时期减少了一半,而具有相同超参数的模型的验证和测试损失的变化要小得多。我们还展示了在多时间序列数据集上进行训练和测试时,验证损失最小的模型相对于粗略波动性预测的表现普遍提高了大约 20%。
Aug, 2023
该技术报告描述了使用 MNIST 和 UW3 数据库对 LSTM 网络进行基准测试的结果,并探讨了不同架构和超参数选择对性能的影响。该研究表明:(1)LSTM 性能平滑地取决于学习率,(2)批处理和动量对性能没有显着影响,(3)softmax 训练优于最小二乘训练,(4)孔径单元无用,(5)标准非线性函数(tanh 和 sigmoid)性能最佳,(6)将双向训练与 CTC 相结合比其他方法表现更好。
Aug, 2015
本文介绍了一种基于 LSTM 的循环神经网络架构,用于训练大词汇量的语音识别声学模型,与传统的 RNN 和深度神经网络进行了比较。结果表明,LSTM 模型收敛速度快,对于相对较小的模型具有最先进的语音识别表现。
Feb, 2014
本论文介绍了一种名为平行 LSTM 的 RNN 模型,可以并行处理多个同步输入序列以预测共同输出。在自动电视节目分类任务上的实验表明,该方法优于基线 n-gram 模型和最先进的 LSTM 方法。
Feb, 2017
本文介绍了一种利用低秩分解和参数共享技术来学习紧凑的循环神经网络(LSTM)的机制,探究了在不损失性能的情况下完善紧凑结构的可能性,并且发现在底层使用结构矩阵,在顶层使用共享低秩因子的混合策略特别有效,在 2000 小时英语语音搜索任务上将标准 LSTM 的参数减少了 75%,仅仅增加了 0.3% 的误差率。
Apr, 2016
在进行短程序评估方面,实验评估了 LSTM 在序列到序列范式中的表现和可学习性,并使用课程学习来提高网络性能,结果表明 LSTM 可以以 99% 的准确率训练生成能够计算两个 9 位数字加法的模型。
Oct, 2014