本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
我们提出了一种实时连续控制和 “掌控” 序列生成的方法,使用一组循环神经网络和动态改变模型混合权重,并使用基于字符的长短时记忆网络和手势界面演示了该方法。
Dec, 2016
本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络,通过合适的正则化和端到端的训练方法,该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7%。
Mar, 2013
本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络,并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。
Dec, 2014
本文提出课程学习策略,用于训练循环神经网络,以尽量减小实际工作场景中训练和推理之间的差异,如在 MSCOCO 图片注释挑战赛中实测有效。
Jun, 2015
论文提出了一种基于记忆网络和神经关注机制的机器阅读模拟器,能够更好地处理结构化输入,并结合编码器 - 解码器体系结构,取得了很好效果。
Jan, 2016
使用字符级语言模型作为可解释的测试平台,本研究分析了 LSTM 的表示、预测和错误类型,并揭示了其提高性能的长程结构依赖性的来源。
使用基于数据驱动的长短时记忆(LSTM)循环神经网络的预测方法,展示了该方法在高维混沌系统中的定量预测效果,并提出了一种新的具有混合结构的 LSTM 神经网络。与高斯过程相比,LSTM 在所有应用中都表现出更好的短期预测准确性,并且 MSM-LSTM 可以保证收敛到不变措施。
Feb, 2018
本研究论文介绍了递归神经网络 (RNN)、 长短期记忆网络 (LSTM) 及其变体,在训练过程中解决长序列中的梯度消失 / 爆炸问题,并详细介绍了 LSTM 中的门控单元,双向 RNN 及 Embeddings from Language Model (ELMo) network 的原理。
Apr, 2023
提出了一种新的序列级训练算法,使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标,并且在三个不同的任务中,我们的方法优于其他几种基准方法。同时,在其他基准方法使用波束搜索时,我们的方法也具有竞争力,而且速度快几倍。
Nov, 2015