增强连续强化学习中的世界模型回放

Jan, 2024

增强连续强化学习中的世界模型回放

Augmenting Replay in World Models for Continual Reinforcement Learning

Luke Yang, Levin Kuhlmann, Gideon Kowadlo

TL;DR通过引入一种扩充缓冲区的方法来缓解记忆约束，将其与基于模型的强化学习算法结合使用，从而在持续学习中提高效果。我们在 Procgen 和 Atari RL 基准测试中评估了这种方法的有效性，并证明了在潜在世界模型的背景下，用于回放缓冲区的分布匹配扩充可以成功防止灾难性遗忘，并大大减少了计算开销。然而，我们也发现此类解决方案并非完全没有缺陷，还存在缺乏可塑性和无法学习新任务等失败模式，可能是持续学习系统的潜在限制。

Abstract

In continual rl, the environment of a reinforcement learning (RL) agent undergoes change. A successful system should appropriately balance the conflicting requirements of retaining agent performance on already le

continual rl reinforcement learning memory constraints world models catastrophic forgetting

发现论文，激发创造

增强回放的连续强化学习

RECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023

潜在世界模型对于连续强化学习的惊人有效性

本文研究了基于模型的强化学习方法，特别是对于持续强化学习的世界模型的应用。结论表明，使用世界模型是一种简单且有效的持续强化学习基准。

Nov, 2022

使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

本文探讨了在深度强化学习中，如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题，从而实现在环境变化时能够更加高效地应对。

Mar, 2023

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

连续学习中的自适应记忆回放

基于丰富的记忆资源和训练效率的重视，我们引入了一种适应性记忆回放的框架来解决不断学习问题，通过多臂赌博机问题的方法来动态选择训练数据，从而在保持高性能的同时减少了遗忘达 10%。

Apr, 2024

生成回放与反馈连接作为连续学习的通用策略

本文的主要研究方向是解决人工神经网络在学习新任务时会快速遗忘以前学到的任务而导致无法实现真正的生命周期学习的问题，该文提出了一种新的方法，即基于生成回放的连续学习方法，该方法可以在各种不同的场景下实现优异的性能表现。

Sep, 2018

从视频中持续进行预测学习

本文主要研究了如何在实际应用中，处理环境持续变化的情况下，进行预测学习。作者提出了 Continual Predictive Learning (CPL) 方法，并在基于 RoboNet 和 KTH 的两个新基准测试中展示了该方法在视频预测和持续学习方面的有效性。

Apr, 2022

基于时间感知正则化的生成式经验回放的类增量学习

在严格的条件下，通过使用生成回放、模型大小控制、时态正则化等方法，本研究提出了一种脑启发式的持续学习方法，以解决累积学习中遗忘问题，并在重要基准测试中取得了较好的实验结果。

Oct, 2023

基於生成回放的評論式學習方法

本研究提出了一种名为 Review Learning 的深度学习连续学习技术，使用神经突触权重中存储的记忆信息生成数据样本，并避免了在数据集转移学习中出现的灾难性遗忘现象，从而在保护数据隐私的前提下，提高了模型的性能表现。在使用三类二分类电子病历数据进行仿真和真实医疗多机构实验验证后，本文表明 Review Learning 能够高效保留之前学习的知识。

Oct, 2022

Continual World：一个用于连续强化学习的机器人基准测试

提出了 Continual World 基准，并进行了基于机器人任务的方法评估，该评估针对 Continual learning 中的前向迁移和 Catastrophic forgetting 进行优化，以提高方法在 RL 中的性能。

May, 2021