通过对错误的时间重新缩放来提高长期记忆学习

Jul, 2023

通过对错误的时间重新缩放来提高长期记忆学习

Improve Long-term Memory Learning Through Rescaling the Error Temporally

Shida Wang, Zhanglu Yan

TL;DR本研究旨在探究序列建模中长期记忆学习的错误度量选择。通过研究常用的错误度量，包括平均绝对/平方误差，我们发现所有具有时间权重的错误度量在学习线性函数时都有对短期记忆的偏向。为了减少这种偏向并改善长期记忆学习，我们提出了一种时间重新缩放的误差度量方法。除了减少对短期记忆的偏向外，这种方法还可以缓解梯度消失问题。我们通过对不同的长记忆任务和序列模型进行数值实验来验证我们的观点。数值结果确认了恰当的时间重新缩放误差对于有效的长期记忆学习的重要性。据我们所知，这是第一项定量分析序列建模中不同错误度量对短期记忆偏向的研究。

Abstract

This paper studies the error metric selection for long-term memory learning in sequence modelling. We examine the bias towards short-term memory<

发现论文，激发创造

循环神经网络中学习更长记忆

本文介绍了一种用于解决长期依赖的神经网络结构——循环神经网络，并通过对语言建模等实验得出其同LSTM网络有着类似的性能表现。

Dec, 2014

语言和音乐长记忆的统计研究

本研究旨在解决长序列数据中具有长程依赖的表征和学习问题，采用长记忆随机过程的理论框架对深度学习体系结构中学习到的长程依赖进行调查和测试。

Apr, 2019

持续学习中灾难性遗忘的理解

本文研究了灾难性遗忘和任务序列属性之间的关系，尤其是给定任务序列，我们希望了解这个序列的哪些属性会影响在该序列上训练的永续学习算法的错误率。我们提出了一种新的程序，利用最近在任务空间建模和相关性分析方面的发展来指定和分析我们感兴趣的属性。作为一个应用，我们将我们的程序应用于研究任务序列的两个属性：“总复杂度”和“顺序异质性”。我们发现，对于一些最先进的算法，错误率与任务序列的总复杂度强烈且正相关；令人惊讶的是，在某些情况下，错误率与顺序异质性没有或甚至具有负相关性。我们的发现为改进永续学习基准和方法提供了方向。

Aug, 2019

循环神经网络中的持续学习

本文针对循环神经网络(RNNs)顺序数据的连续学习(CL)方法进行了全面评估，发现了应用权重重要性方法时的特殊性，并提出了一种基于超级网络的正则化方法，有效解决了RNNs上的连续学习问题。

Jun, 2020

线性 RNN 的隐性偏差

研究说明传统的循环神经网络（RNNs）在需要长期记忆的任务上表现不佳的原因是因为其随机初始化后的转移矩阵方差造成了梯度消失和梯度爆炸的问题，而使用线性RNNs代替时会出现更短的记忆偏差，这一理论经过人工数据和真实数据的验证。

Jan, 2021

利用弹性权重整合改进计划采样用于神经机器翻译

通过系统实验，本文发现MaxML存在的曝光偏差问题是“抽样计划”的缺点，该计划加剧了当推理时间的前缀是正确的时的性能下降，即灾难性忘记。因此，提出使用“弹性权重合并”方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实验表明，该方法缓解了灾难性忘记问题，并显著优于最大似然估计和计划抽样对照组。

Sep, 2021

序列建模的长记忆

提出了一种名为长表达记忆（LEM）的新方法，用于学习长期顺序依赖关系，它可以通过梯度进行高效处理并且具有足够的表达能力，能够学习复杂的输入输出映射，通过实验验证了 LEM 在图像分类、时间序列分类、语音识别、语言建模等任务中的优越性。

Oct, 2021

解释我的惊讶：通过预测不确定结果学习高效的长期记忆

本文提出了一种新的训练方法MemUP，可以在不需要同时反向传播整个序列梯度的情况下学习长期依赖关系，用于训练LSTM网络表现表现良好，并需要存储更少的中间数据。

Jul, 2022

大型语言模型中的少样本记忆识别、回忆和保留

现代大型语言模型的训练中，即使只看几次，一个模型也可以记住它们，但随着新的例子不断训练，模型的这些记忆会逐渐被覆盖。同时，这些模型在识别、回忆和保留方面的表现提高得非常快。

Mar, 2023

长序列模型对长序列的建模能力：对长上下文能力的架构归纳偏好比较

长序列在现实场景中大量出现，适当地对其进行建模可以打开许多下游用例。然而，深度神经网络在处理长序列时常常面临各种困难。最近的进展在系统工程和模型设计方面使得可以扩展模型支持更长的上下文长度。然而，这是否过于美好而不切实际？我们进行了评估，并展示了虽然这些主张在理论上是可行的，但实际上存在大量的实践差距。特别是，在相同的设置中，循环模型仍然与具有注意力的长上下文语言模型存在类似的问题。我们进一步表明不同的归纳偏见在外推能力上存在不一致性，强调了需要进一步研究这些范例，以及研究为什么长上下文模型似乎无法按预期运行。

Jul, 2024