基于好奇心回放的模型自适应方法

Jun, 2023

基于好奇心回放的模型自适应方法

Curious Replay for Model-based Adaptation

Isaac Kauvar, Chris Doyle, Linqi Zhou, Nick Haber

TL;DR通过使用基于好奇心的优先信号的好奇式回放优化模型代理，我们在模拟环境中取得了优秀的探索性能，DreamerV3 与 Curious Replay 在Crafter基准测试上取得了超过14.5的最高分，达到了19.4的均值分数。

Abstract

Agents must be able to adapt quickly as an environment changes. We find that existing model-based reinforcement learning agents are unable to do this well, in part because of how they use past experiences to train their world model. Here, we present →

发现论文，激发创造

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019

优先级别回放

本研究提出了一种名为PLR的新方法，在深度强化学习中使用优先级重放机制来选择下一个训练级别，通过适当的训练级别采样，PLR在Procgen基准测试上显著提高样本效率和泛化能力，并超过了以前的最佳结果。

Oct, 2020

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案LaBER，与DQN、分布式RL和actor-critic方法相结合，能够在Atari游戏和PyBullet环境中提供比其他优先级方案更好的性能。

Oct, 2021

基于模型无关生成回放的终身强化学习：以星际争霸2为例

本研究研究了三种LRL模型的生成式重演（GR）机制，提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明，该机制在深度RL代理的潜藏向量空间内防止特征到行为映射发生漂移，缩小了训练样本数量，具有较高的实验价值。

Aug, 2022

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对Deep Q-Network算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在Mountain Car环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

MAC-PO: 基于集体优先级优化的多智能体经验回放

通过优化采样权重，将优先经验回放应用于多智能体强化学习(MARL)中，以最小化策略遗憾并获得更好的优先级方案，提高训练效率并在实验中表现出良好的效果。

Feb, 2023

合成体验回放

通过利用生成模型技术，我们提出了 Synthetic Experience Replay（SynthER），这是一种基于扩散的方法，能够有效地提高在数据有限的情况下训练强化学习代理的样本效率，并为重放学习算法的深度学习实现开启了使用合成数据的大门。

Mar, 2023

实验间重演：离策略强化学习的自然扩展

利用回放数据来增强稳定性和数据效率是离轨策略强化学习的主要机制。我们提出了一种简单而有效的框架，可将回放应用于多个实验，通过最小程度的调整强化学习工作流程，显著改善控制器性能和研究迭代时间。

Nov, 2023