持续模型学习的情节记忆
提出一种生命化语言学习的模型,其中采用了 “稀疏经验回放” 和 “本地适应” 以减轻灾难性遗忘,并将这种情况应用于文本分类和问题回答中,证明了这种模型的优越性,同时表明通过随机选择存储在内存中的样本可以大大减少经验记忆模块的空间复杂度,并认为经验记忆组件是构建通用语言智能的重要组成部分。
Jun, 2019
该研究实证分析了在连续学习过程中,引入极小的叙事性记忆在任务之间转移知识的有效性,并发现相较于特定的连续学习方法,该方法能利用极小的记忆显著提升泛化能力,对小样本问题有一定的启示。
Feb, 2019
该文研究了利用固定数量的过去状态来维护一个外部内存的新算法,使得深度强化学习代理能够在线记忆有用的状态,并可以在在线强化学习设置中实现梯度估计。
Jun, 2018
本研究使用 Actor-Critic 架构,通过修改 critic 的目标函数,将记忆机制引入连续控制问题中,使用基于经验的记忆缓冲区优先级排列方式,验证了在广泛的行动空间下,使用记忆机制能够提高连续控制中代理的性能,并且相较于最先进的自由模型离线算法,实现了更高的样本效率。
Jun, 2021
研究了 AI 发展中的一个主要障碍,即模型快速解决新问题的能力欠佳且容易忘记先前获得的知识。提出了一种基于连续数据的模型学习评估指标并提出了 Gradient Episodic Memory (GEM) 模型,它可以减轻模型遗忘的问题并允许将知识传递到以前的任务中。实验表明,相对于现有技术水平,GEM 表现良好。
Jun, 2017
通过将经验回放与新的 “锚定” 目标相结合,使用双层优化来更新当前任务的知识,同时保持对过去任务的一些锚点的预测,以减少遗忘。在多个监督学习基准测试中进行实验,证明了我们的方法在精度和遗忘度量方面改进了标准经验回放,并适用于各种大小的情节性记忆。
Feb, 2020
本文是关于使用信息论从数据流中选择回放内存的在线选择问题的研究,提出了 Surprise 和 Learnability 准则,并使用贝叶斯模型高效地计算这些准则,进一步引入信息熵随机采样器(InfoRS)来选择高信息熵的点进行采样。在连续学习基准测试中,验证了它的效率和功效。
Apr, 2022