使用字符级语言模型作为可解释的测试平台,本研究分析了 LSTM 的表示、预测和错误类型,并揭示了其提高性能的长程结构依赖性的来源。
Jun, 2015
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
本文探讨采用长短期记忆(LSTM)深度神经网络来挖掘多元时间序列的临床医疗数据,特别是在重症监护病房(ICU)中的应用,通过将 128 个诊断结果与 13 个临床测试指标进行分类建模,获得了优于其他多层感知机的分类效果。
Nov, 2015
使用长短时记忆神经网络模型探索了自然语言中的分层结构,结果显示 LSTM 无法学习到相关的上下文无关规则,但仍是许多自然语言任务的高效工具之一。
Nov, 2018
本研究对长短期记忆网络的归纳学习能力进行了实证评估,发现在不同的训练设置下模型性能存在显著差异,并强调在提出神经网络模型的学习能力时需要进行仔细的分析和评估。
本文研究了课程学习对长短期记忆 (LSTM) 网络的影响,其中包括情感分析任务和与自然语言处理中序列预测任务相似的合成任务。实验表明,课程学习对 LSTM 的内部状态有积极影响,可以帮助构建有建设性的表示,特别是在训练数据有限的情况下可以发挥更大的作用。此外,当使用课程学习时,模型的大小也会显著提高。
Nov, 2016
该技术报告描述了使用 MNIST 和 UW3 数据库对 LSTM 网络进行基准测试的结果,并探讨了不同架构和超参数选择对性能的影响。该研究表明:(1)LSTM 性能平滑地取决于学习率,(2)批处理和动量对性能没有显着影响,(3)softmax 训练优于最小二乘训练,(4)孔径单元无用,(5)标准非线性函数(tanh 和 sigmoid)性能最佳,(6)将双向训练与 CTC 相结合比其他方法表现更好。
Aug, 2015
本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络,并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。
Dec, 2014
该论文旨在通过从信号处理中提取概念,正式导出经典的 RNN 公式,揭示 LSTM 系统的组成部分,并将 RNN 转换为 Vanilla LSTM 网络,以便于理解和实现。在此基础上,作者提出了基于 Vanilla LSTM 的最新扩展,适合机器学习从业者参考和研究。
Aug, 2018
本研究论文介绍了递归神经网络 (RNN)、 长短期记忆网络 (LSTM) 及其变体,在训练过程中解决长序列中的梯度消失 / 爆炸问题,并详细介绍了 LSTM 中的门控单元,双向 RNN 及 Embeddings from Language Model (ELMo) network 的原理。
Apr, 2023