本文提出了使用深度门扩展长短期记忆神经网络模型的方法,借助门控函数来控制较高和较低层次中的循环单元线性相关性,实现了机器翻译和语言建模性能的提高。
Aug, 2015
本文提出一种 H-LSTM 模型,利用增长和修剪(GP)的方式通过梯度增长和基于大小的修剪来迭代调整隐藏层,从而使得模型在图像字幕和语音识别等应用中的表现更快、更精确、更紧凑。
May, 2018
我们修改并扩展 LSTM 的门控机制和记忆结构,得到了 xLSTM 模型,该模型在性能和规模上与最先进的 Transformer 模型和状态空间模型相比表现出色。
May, 2024
本文提出了一种基于树结构的长短时记忆网络模型 S-LSTM,用于实现文本语义组合和自然语言理解,比现有基于递归的模型效果更佳。
Mar, 2015
本文介绍了一种新的神经网络模型,即 Tensorized LSTM,它使用张量来表示隐藏状态,通过跨层卷积来更新这些状态。该模型在不增加额外参数的情况下,有效地扩展了网络的容量,并将深度计算合并为时序计算,从而提高了其性能。实验结果表明,该模型在多项挑战性的序列学习任务中表现出很大的潜力。
Nov, 2017
本文提出了一种名为 Tree Long Short-Term Memory (TreeLSTM) 的神经网络模型,它基于 LSTM 并专门用于预测树结构,同时通过明确表示左右句法相关性,提高了建模能力。在 MSR 句子完成挑战和依存分析重排序方面的应用,都达到了当前最先进技术水平的效果。
Oct, 2015
本文介绍了 Grid Long Short-Term Memory,这是一种由 LSTM 单元组成的多维网格网络,可用于向量、序列或图像等更高维的数据。该网络在现有深度 LSTM 架构中的不同之处在于单元不仅在网络层之间连接,也连接在数据的时空维度上,提供了一种统一的使用 LSTM 进行深层次和序列计算的方法。我们将模型应用于 15 位整数加法和序列记忆等算法任务,发现其能够显著优于标准 LSTM。我们还给出了两个实证任务的结果。2D Grid LSTM 在维基百科字符预测基准测试中达到了 1.47 位 / 字符,这是神经方法中的最佳结果。此外,我们使用 Grid LSTM 定义了一种新的二维翻译模型 Reencoder,并表明其在中英翻译任务上优于基于短语的参考系统。
Jul, 2015
介绍了 Tree-LSTM,一种适用于树状网络的 LSTM 结构,该系统表现优秀,可以应用于两个任务:预测两个句子的语义相关性和情感分类。
Feb, 2015
该研究论文介绍了一种基于权重共享概念的新型 LiteLSTM 体系结构,通过减少 LSTM 的计算组件来降低整体架构成本和维护架构性能,从而提高学习大数据的效率,尤其适用于物联网设备和医学数据的安全性,同时有助于减少 CO2 排放。该模型在计算机视觉和网络安全领域的两个不同数据集上进行了实证评估和测试。
Jan, 2022
本研究引入多内存单元增强标准 LSTM 架构,研究表明,Array-LSTM 方法的随机变量能够提升字符级文本预测的性能,使 Enwik8 数据集表现达到 1.402 BPC,并且能够建立起 Enwik9 和 Enwik10 数据集的神经网络基础结果分别为 1.12 BPC 和 1.19 BPC。
Jul, 2016