学习执行

Oct, 2014

Learning to Execute

Wojciech Zaremba, Ilya Sutskever

TL;DR在进行短程序评估方面，实验评估了 LSTM 在序列到序列范式中的表现和可学习性，并使用课程学习来提高网络性能，结果表明 LSTM 可以以 99% 的准确率训练生成能够计算两个 9 位数字加法的模型。

Abstract

recurrent neural networks (RNNs) with long short-term memory units (lstm) are widely used because they are expressive and are easy to trai

recurrent neural networks long short-term memory units lstm sequence-to-sequence curriculum learning

发现论文，激发创造

可视化和理解循环网络

使用字符级语言模型作为可解释的测试平台，本研究分析了 LSTM 的表示、预测和错误类型，并揭示了其提高性能的长程结构依赖性的来源。

Jun, 2015

循环神经网络在序列学习中的关键评估

本文对于近三十年来产生和实践了重要的循环神经网络（RNN），LSTM 和 BRNN 等模型的研究进行综述，旨在提供一个自成体系的最前沿阐述和历史视角，并引用了相关研究文献。

May, 2015

使用 LSTM 循环神经网络进行诊断学习

本文探讨采用长短期记忆（LSTM）深度神经网络来挖掘多元时间序列的临床医疗数据，特别是在重症监护病房（ICU）中的应用，通过将 128 个诊断结果与 13 个临床测试指标进行分类建模，获得了优于其他多层感知机的分类效果。

Nov, 2015

评估 LSTM 学习无上下文文法的能力

使用长短时记忆神经网络模型探索了自然语言中的分层结构，结果显示 LSTM 无法学习到相关的上下文无关规则，但仍是许多自然语言任务的高效工具之一。

Nov, 2018

评估 LSTM 模型在形式语言中的泛化能力

本研究对长短期记忆网络的归纳学习能力进行了实证评估，发现在不同的训练设置下模型性能存在显著差异，并强调在提出神经网络模型的学习能力时需要进行仔细的分析和评估。

Nov, 2018

可视化和理解长短期记忆网络的课程学习

本文研究了课程学习对长短期记忆 (LSTM) 网络的影响，其中包括情感分析任务和与自然语言处理中序列预测任务相似的合成任务。实验表明，课程学习对 LSTM 的内部状态有积极影响，可以帮助构建有建设性的表示，特别是在训练数据有限的情况下可以发挥更大的作用。此外，当使用课程学习时，模型的大小也会显著提高。

Nov, 2016

LSTM 网络基准测试

该技术报告描述了使用 MNIST 和 UW3 数据库对 LSTM 网络进行基准测试的结果，并探讨了不同架构和超参数选择对性能的影响。该研究表明：（1）LSTM 性能平滑地取决于学习率，（2）批处理和动量对性能没有显着影响，（3）softmax 训练优于最小二乘训练，（4）孔径单元无用，（5）标准非线性函数（tanh 和 sigmoid）性能最佳，（6）将双向训练与 CTC 相结合比其他方法表现更好。

Aug, 2015

循环神经网络中学习更长记忆

本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络，并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。

Dec, 2014

循环神经网络（RNN）和长短时记忆网络（LSTM）的基础知识

该论文旨在通过从信号处理中提取概念，正式导出经典的 RNN 公式，揭示 LSTM 系统的组成部分，并将 RNN 转换为 Vanilla LSTM 网络，以便于理解和实现。在此基础上，作者提出了基于 Vanilla LSTM 的最新扩展，适合机器学习从业者参考和研究。

Aug, 2018

循环神经网络和长短时记忆网络：教程和调研

本研究论文介绍了递归神经网络 (RNN)、长短期记忆网络 (LSTM) 及其变体，在训练过程中解决长序列中的梯度消失 / 爆炸问题，并详细介绍了 LSTM 中的门控单元，双向 RNN 及 Embeddings from Language Model (ELMo) network 的原理。

Apr, 2023