本文介绍了长短时记忆网络的互相门机制,以实现更好地建模自然语言处理中上下文之间的交互, 并通过实验在多个数据集上证明了其在语言建模上较传统模型具有更好的泛化能力和性能表现。
Sep, 2019
本文介绍了一种新的神经网络模型,即 Tensorized LSTM,它使用张量来表示隐藏状态,通过跨层卷积来更新这些状态。该模型在不增加额外参数的情况下,有效地扩展了网络的容量,并将深度计算合并为时序计算,从而提高了其性能。实验结果表明,该模型在多项挑战性的序列学习任务中表现出很大的潜力。
Nov, 2017
将 xLSTM 构建模块应用于计算机视觉领域,ViL 展现出成为新的通用骨干框架的潜力。
Jun, 2024
本论文介绍了一种名为平行 LSTM 的 RNN 模型,可以并行处理多个同步输入序列以预测共同输出。在自动电视节目分类任务上的实验表明,该方法优于基线 n-gram 模型和最先进的 LSTM 方法。
Feb, 2017
本文研究证明可学习门控在循环神经网络中提供输入数据的时间转换几乎不变性的功能,从而为长期依赖性和参数初始化提供了新的可能性。
Mar, 2018
本文提出了使用深度门扩展长短期记忆神经网络模型的方法,借助门控函数来控制较高和较低层次中的循环单元线性相关性,实现了机器翻译和语言建模性能的提高。
Aug, 2015
通过解耦 LSTM 门控机制,作者提出了一种新的 RNN 类型,其中门控机制本身作为一种通用的循环模型,提供了比之前更强的表达能力,并且实验表明,门控机制单独在大多数情况下的表现不亚于 LSTM,强烈暗示门控机制在实践中做得比消除消失梯度更多。
May, 2018
本文提出一种 H-LSTM 模型,利用增长和修剪(GP)的方式通过梯度增长和基于大小的修剪来迭代调整隐藏层,从而使得模型在图像字幕和语音识别等应用中的表现更快、更精确、更紧凑。
本文针对典型 Long Short-Term Memory(LSTM)网络的各种计算组件的角色和实用性进行了大规模分析,并在三个代表性任务上比较了八种 LSTM 变体。结果表明,遗忘门和输出激活函数是 LSTM 架构最关键的组件。此外,在研究的超参数方面,我们发现它们几乎是独立的,并提出了调整它们的有效指导方针。
Mar, 2015
本文研究了如何利用 Stack Long Short-Term Memory (StackLSTM) 的状态访问模式来优化 GPU 训练,将不同的离散操作同质化。实验结果表明,该方法在批处理大小增加时具有几乎线性的可扩展性,而我们的 PyTorch 实现的训练速度也比 Dynet C ++ 实现快得多。
Apr, 2019