Jul, 2023

通过对错误的时间重新缩放来提高长期记忆学习

TL;DR本研究旨在探究序列建模中长期记忆学习的错误度量选择。通过研究常用的错误度量,包括平均绝对/平方误差,我们发现所有具有时间权重的错误度量在学习线性函数时都有对短期记忆的偏向。为了减少这种偏向并改善长期记忆学习,我们提出了一种时间重新缩放的误差度量方法。除了减少对短期记忆的偏向外,这种方法还可以缓解梯度消失问题。我们通过对不同的长记忆任务和序列模型进行数值实验来验证我们的观点。数值结果确认了恰当的时间重新缩放误差对于有效的长期记忆学习的重要性。据我们所知,这是第一项定量分析序列建模中不同错误度量对短期记忆偏向的研究。