具备知识整合的记忆高效强化学习
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017
本文研究通过经验重放的方法,利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点,结果表明分布匹配算法可以成功避免严重忘却问题,并且在所有测试领域中始终表现最佳。同时我们发现,当部分任务的重要性比其他任务更高时,最大化状态空间覆盖率是有福利的。
Feb, 2018
研究了当神经网络被培训在一个时间上变化的数据流时,其面临的 “灾难性遗忘” 问题。本文提出并实验了一种简单的 rehearsal-based 方法,即 Experience Replay,并证明其相对于现有的基于 rehearsal 的方法有了极大的精度提升。
Oct, 2020
RECALL 是一种重播增强方法,通过自适应规范化和旧任务的策略蒸馏,在新任务上增强普适性和稳定性,从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中,RECALL 的性能明显优于纯粹的完美记忆重播,与最先进的持续学习方法相比,整体性能相当甚至更好。
Nov, 2023
本文提出了一种基于生物学启发的强化学习算法 Episodic Memory Deep Q-Networks(EMDQN),该算法利用情节内存来监督代理在训练过程中,实验表明我们提出的方法可以提高样本效率,更容易找到好策略,在 Atari 游戏上只需要 1/5 的交互就能达到许多具有最先进性能的情况,明显优于常规 DQN 和其他情节记忆基 RL 算法。
May, 2018
提出 REMIND 方法,用于神经网络的在线学习。该方法以压缩的记忆方式实现了网络的更新,达到了降低过去学习内容遗忘的目的,并在图像分类和视觉问答任务中表现出了优越性。
Oct, 2019
本文提出一种新的深度学习框架 Deep Generative Replay 来解决在实现万能人工智能时的一个长期问题:灾难性遗忘。通过引入灵感于灵长类大脑海马体的短期记忆系统,在该框架中包含一个生成模型和一个任务求解模型,并在图像分类任务中进行了相关实验和测试。
May, 2017
本文探讨了在深度强化学习中,如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题,从而实现在环境变化时能够更加高效地应对。
Mar, 2023