本文提出了一种名为 NRNM 的非局部循环神经记忆网络,通过自注意机制实现非局部操作,以学习滑动时间记忆块内的全序交互,并以门控的循环方式模拟内存块之间的全局交互来解决序列表示学习中长期依赖建模难题,实验结果表明 NRNM 对于不同类型序列任务的泛化性和有效性优于其他最先进的方法。
Jul, 2022
提出了一种基于树形记忆网络的序列映射模型,用于捕获长期和短期依赖关系,并在飞行轨迹建模和行人轨迹建模等实际问题中实现了较好的性能。
Mar, 2017
本文提出了一种新的循环神经网络体系结构 Recurrent Memory Network(RMN),不仅能够放大循环神经网络的作用,而且有助于我们理解其内部功能并发现数据中的潜在模式。在语言建模和句子完成任务上展示了 RMN 的强大性能。在长句完成挑战中,RMN 的准确性为 69.2%,超过了以前的最新技术水平。
Jan, 2016
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM 和 BRNN 等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
本文提出了一种新的递归神经网络架构 NRU,该架构依赖于内存机制,不采用饱和激活函数和饱和门,以进一步减轻消失梯度问题,并在一系列合成和真实世界任务中证明了该模型是与其他架构相比,在具有和不具有长期依赖的所有任务中表现最佳的唯一模型。
Jan, 2019
本文提出了 contextualized non-local neural networks (CN3) 模型,它综合了 self-attention 和 graph neural networks 两种方法的优点,能在一定范围内构建特定任务的句子结构,从而在文本分类、语义匹配和序列标注等 10 个 NLP 任务中表现优异。
Nov, 2018
本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络,并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。
Dec, 2014
本文提出两种方法用于使用未标记的数据改善序列学习。第一种方法是预测序列中的下一个元素,第二种方法是使用序列自编码器。通过这两种算法的无监督训练,我们可以训练出更稳定且泛化性能更好的长短时记忆网络,并在诸如 IMDB、DBpedia 和 20 Newsgroups 等文本分类任务中获得强大的性能。
Nov, 2015
本文研究循环神经网络和自注意力网络的互信息,发现它们的互信息随时间距离呈指数衰减,而 Transformer 网络能更有效地捕捉长程联系,适用于建模具有慢冻结互信息的序列,如自然语言和股票价格。
May, 2019
本文提出了一种名为 Rehearsal Memory (RM) 的方法,通过自监督的历史抽样式重复训练,设计了回忆和熟悉度等训练任务来提高对长序列的记忆,为了让记忆关注重要信息,设计了历史抽样器来选择有用的信息片段,通过 bAbI 任务、文本 / 视频问答和推荐等多种测试表明该方法大大提高了长序列推理的效率和精度。
Jun, 2021