解释我的惊讶：通过预测不确定结果学习高效的长期记忆

Jul, 2022

解释我的惊讶：通过预测不确定结果学习高效的长期记忆

Explain My Surprise: Learning Efficient Long-Term Memory by Predicting Uncertain Outcomes

Artyom Sorokin, Nazar Buzun, Leonid Pugachev, Mikhail Burtsev

TL;DR本文提出了一种新的训练方法 MemUP，可以在不需要同时反向传播整个序列梯度的情况下学习长期依赖关系，用于训练 LSTM 网络表现表现良好，并需要存储更少的中间数据。

Abstract

In many sequential tasks, a model needs to remember relevant events from the distant past to make correct predictions. Unfortunately, a straightforward application of gradient based training requires intermediate computations to be stored for every element of a sequence. This requires

long-term dependencies gradient based training recurrent architecture lstm network memup

发现论文，激发创造

序列建模的长记忆

提出了一种名为长表达记忆（LEM）的新方法，用于学习长期顺序依赖关系，它可以通过梯度进行高效处理并且具有足够的表达能力，能够学习复杂的输入输出映射，通过实验验证了 LEM 在图像分类、时间序列分类、语音识别、语言建模等任务中的优越性。

Oct, 2021

扩展语言模型的记忆

本文介绍了长期记忆网络 (LTM) 以解决自然语言理解模型在处理长的序列文本时出现的问题。通过在语言建模任务上进行测试，我们发现 LTM 能够学习到无限长的序列信息，并与其他需要长时间记忆的语言模型进行比较。

May, 2023

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

循环神经网络中学习更长记忆

本文介绍了一种用于解决长期依赖的神经网络结构 —— 循环神经网络，并通过对语言建模等实验得出其同 LSTM 网络有着类似的性能表现。

Dec, 2014

半监督序列学习

本文提出两种方法用于使用未标记的数据改善序列学习。第一种方法是预测序列中的下一个元素，第二种方法是使用序列自编码器。通过这两种算法的无监督训练，我们可以训练出更稳定且泛化性能更好的长短时记忆网络，并在诸如 IMDB、DBpedia 和 20 Newsgroups 等文本分类任务中获得强大的性能。

Nov, 2015

增强语言模型的长期记忆

提出了一种名为 LongMem 的框架，该框架通过引入长期记忆机制，使得语言模型能够利用历史上下文信息，从而使得模型在文本生成等任务中取得了优异效果。

Jun, 2023

长短期记忆视频摘要

本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术，其将问题视为顺序数据上的结构化预测问题，主要想法是利用 LSTM（长短时记忆），该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性，详细分析证明了模型设计的合理性，通过引入领域适应技术，我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。

May, 2016

基于长短期记忆网络的时间序列预测深度学习

本文介绍 LSTM 模型的结构和前向传播机制，提出了 Random Connectivity LSTM（RCLSTM）模型，并通过在电信网络交通预测和用户移动性中的应用证明了 RCLSTM 模型可实现相同的预测准确性，同时具有计算复杂度更低的优点

Oct, 2018

减缓长短期记忆网络的灾难性遗忘

本文研究在序列数据上的持续学习问题，重点讨论了 LSTM 网络的遗忘和多任务学习问题，并提出了两种有效的解决方案，证明了这种方法比现有的权重正则化方法更为简单、高效，可应用于计算机系统优化和自然语言处理等领域。

May, 2023

具有更灵活记忆的循环神经网络：相较于粗糙波动性更好的预测

我们将循环神经网络扩展到包含几个灵活的时间尺度，这在机械上提高了它们对具有长期记忆或高度不同时间尺度进程的处理能力。通过比较普通和扩展的长短期记忆网络（LSTMs）在预测已知具有长期记忆的资产价格波动性方面的能力，我们发现扩展的 LSTMs 所需的训练时期减少了一半，而具有相同超参数的模型的验证和测试损失的变化要小得多。我们还展示了在多时间序列数据集上进行训练和测试时，验证损失最小的模型相对于粗略波动性预测的表现普遍提高了大约 20％。

Aug, 2023