深度门控 LSTM
本文提出一种 H-LSTM 模型,利用增长和修剪(GP)的方式通过梯度增长和基于大小的修剪来迭代调整隐藏层,从而使得模型在图像字幕和语音识别等应用中的表现更快、更精确、更紧凑。
May, 2018
本研究提出了一种新的 LSTM 训练方式,使得门控单元的输出更加容易解释,经过实证研究,发现通过将门控单元的输出值推向 0 或 1,可以更好地控制信息流,从而提高模型的泛化能力和压缩率。
Jun, 2018
通过解耦 LSTM 门控机制,作者提出了一种新的 RNN 类型,其中门控机制本身作为一种通用的循环模型,提供了比之前更强的表达能力,并且实验表明,门控机制单独在大多数情况下的表现不亚于 LSTM,强烈暗示门控机制在实践中做得比消除消失梯度更多。
May, 2018
通过不断嵌套而不是简单堆叠的方式,我们提出了一种新的基于多层内存的循环神经网络体系结构 ——Nested LSTMs。我们在各种字符级语言建模任务中使用 Nested LSTMs 的内存单元,其性能优于使用相似参数的多层 LSTMs 和单层 LSTMs,并且 LSTM 的内部记忆相对于堆叠的 LSTM 的高层单元来说更能学习到长期的依赖关系。
Jan, 2018
本研究提出了一种基于深度神经网络的语音识别模型,它使用直连和双向 LSTM 来提高信息传递效率,并在 AMI DSR 任务上取得了显著的性能提升。
Oct, 2015
通过替换传统的循环门中的乘法和 Sigmoid 函数为加法和 ReLU 激活函数,该研究提出了一种可以在更低计算成本下维持长期记忆用于序列处理的机制,从而在受限制硬件上实现更高效的执行或更大模型。此机制能够在保持较高的计算效率的同时,捕捉到序列数据的长期依赖关系,并且在 CPU 上减少了一半的执行时间,在加密环境下减少了三分之一的执行时间,实验结果表明该机制与传统的 GRU 和 LSTM 基准模型相比,能够实现可比较的准确性。同时,该机制还能避免加密变量的乘法操作,从而支持具有保护隐私的同态加密人工智能应用,并能在(非加密)明文应用中支持量化操作,潜在地带来显著的性能提升。
Aug, 2023
本文介绍了 Grid Long Short-Term Memory,这是一种由 LSTM 单元组成的多维网格网络,可用于向量、序列或图像等更高维的数据。该网络在现有深度 LSTM 架构中的不同之处在于单元不仅在网络层之间连接,也连接在数据的时空维度上,提供了一种统一的使用 LSTM 进行深层次和序列计算的方法。我们将模型应用于 15 位整数加法和序列记忆等算法任务,发现其能够显著优于标准 LSTM。我们还给出了两个实证任务的结果。2D Grid LSTM 在维基百科字符预测基准测试中达到了 1.47 位 / 字符,这是神经方法中的最佳结果。此外,我们使用 Grid LSTM 定义了一种新的二维翻译模型 Reencoder,并表明其在中英翻译任务上优于基于短语的参考系统。
Jul, 2015
本文使用可视化技术研究了 LSTM 和 GRU 在语音识别任务中的行为,并提出两种简单而有效的网络结构修改:LSTM 中的懒惰单元更新和残差学习的快捷连接。两种修改都使得网络更加易于理解和强大。
Sep, 2016