使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

Mar, 2023

使用本地遗忘的回放缓冲器进行自适应深度模型强化学习

Replay Buffer With Local Forgetting for Adaptive Deep Model-Based Reinforcement Learning

Ali Rahimi-Kalahroudi, Janarthanan Rajendran, Ida Momennejad, Harm van Seijen, Sarath Chandar

TL;DR本文探讨了在深度强化学习中，如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题，从而实现在环境变化时能够更加高效地应对。

Abstract

One of the key behavioral characteristics used in neuroscience to determine whether the subject of study -- be it a rodent or a human -- exhibits model-based learning is effective adaptation to local changes in t

neuroscience model-based learning reinforcement learning deep learning world models

发现论文，激发创造

构建自适应模型的模型驱动强化学习代理的部分模型

通过使用部分模型，深度模型驱动的算法可以在局部环境变化中实现适应性的快速构建和维持准确模型，并有效应对这种挑战。

May, 2024

增强连续强化学习中的世界模型回放

通过引入一种扩充缓冲区的方法来缓解记忆约束，将其与基于模型的强化学习算法结合使用，从而在持续学习中提高效果。我们在 Procgen 和 Atari RL 基准测试中评估了这种方法的有效性，并证明了在潜在世界模型的背景下，用于回放缓冲区的分布匹配扩充可以成功防止灾难性遗忘，并大大减少了计算开销。然而，我们也发现此类解决方案并非完全没有缺陷，还存在缺乏可塑性和无法学习新任务等失败模式，可能是持续学习系统的潜在限制。

Jan, 2024

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

选择性经验回放用于终身学习

本文研究通过经验重放的方法，利用 “distribution matching” 算法来防止深度神经网络多任务学习中的严重忘却问题。实验探索了不同体验选择策略的优缺点，结果表明分布匹配算法可以成功避免严重忘却问题，并且在所有测试领域中始终表现最佳。同时我们发现，当部分任务的重要性比其他任务更高时，最大化状态空间覆盖率是有福利的。

Feb, 2018

具备知识整合的记忆高效强化学习

我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法，通过从目标 Q 网络到当前 Q 网络合并知识，减少遗忘并保持高的样本效率。与基线方法相比，在特征和图像任务中取得了相当或更好的性能，同时减轻了大经验重放缓冲区的负担。

May, 2022

连续学习中的自适应记忆回放

基于丰富的记忆资源和训练效率的重视，我们引入了一种适应性记忆回放的框架来解决不断学习问题，通过多臂赌博机问题的方法来动态选择训练数据，从而在保持高性能的同时减少了遗忘达 10%。

Apr, 2024

经验回放用于连续学习

本文研究了在强化学习中应用经验重放缓解神经网络连续学习中所面临的灾难性遗忘问题，并证明了这种方法可以在 Atari 和 DMLab 领域中很好地解决这个问题。

Nov, 2018

增强回放的连续强化学习

RECALL 是一种重播增强方法，通过自适应规范化和旧任务的策略蒸馏，在新任务上增强普适性和稳定性，从而显著改善持续强化学习中灾难性遗忘的问题。在 Continual World 基准测试中，RECALL 的性能明显优于纯粹的完美记忆重播，与最先进的持续学习方法相比，整体性能相当甚至更好。

Nov, 2023

基于模型的强化学习的自我纠正模型

本文从理论角度分析了 Hallucinated Replay 方法在模型有误的情况下的强化学习效果，提出了一种新的误差界，利用这种方法使确定性 MDPs 的强化学习算法更具有鲁棒性和性能保证。

Dec, 2016

基于模型无关生成回放的终身强化学习：以星际争霸 2 为例

本研究研究了三种 LRL 模型的生成式重演（GR）机制，提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明，该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移，缩小了训练样本数量，具有较高的实验价值。

Aug, 2022