合成体验回放

Mar, 2023

Synthetic Experience Replay

Cong Lu, Philip J. Ball, Jack Parker-Holder

TL;DR通过利用生成模型技术，我们提出了 Synthetic Experience Replay（SynthER），这是一种基于扩散的方法，能够有效地提高在数据有限的情况下训练强化学习代理的样本效率，并为重放学习算法的深度学习实现开启了使用合成数据的大门。

Abstract

A key theme in the past decade has been that when large neural networks and large datasets combine they can produce remarkable results. In deep reinforcement learning (RL), this paradigm is commonly made possible through experience replay, whereby a dataset of past experiences is used to train a policy or value function. However, unlike in supervised or self

generative modeling deep reinforcement learning synthetic experience replay sample efficiency limited data

发现论文，激发创造

基于时间感知正则化的生成式经验回放的类增量学习

在严格的条件下，通过使用生成回放、模型大小控制、时态正则化等方法，本研究提出了一种脑启发式的持续学习方法，以解决累积学习中遗忘问题，并在重要基准测试中取得了较好的实验结果。

Oct, 2023

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

动态体验回放

提出了一种名为动态经验重放（DER）的新技术，它允许强化学习算法不仅使用人类示范的经验重放样本，还使用训练期间由 RL 代理生成的成功转移，因此提高了训练效率，并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验，并比较不同的重放缓冲区结构和 DER 在其中的影响。

Mar, 2020

一种用监督数据提高采样效率的演员 - 评论家强化学习方法在对话管理中的应用

介绍了两种神经网络算法 ——trust region actor-critic with experience replay (TRACER) 和 episodic natural actor-critic with experience replay (eNACER)，以加速深度强化学习，在线学习过程中的效果，并利用演示数据来预先训练深度强化学习模型，以缓解冷启动问题。

Jul, 2017

强化学习高效增强经验回放生成

使用改进的生成对抗网络 (EGAN) 作为深度强化学习代理初始化器，加速深度强化学习在实际系统中的学习速率，特别适用于数据采样稀疏和缓慢的实时系统。

May, 2017

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

基於生成回放的評論式學習方法

本研究提出了一种名为 Review Learning 的深度学习连续学习技术，使用神经突触权重中存储的记忆信息生成数据样本，并避免了在数据集转移学习中出现的灾难性遗忘现象，从而在保护数据隐私的前提下，提高了模型的性能表现。在使用三类二分类电子病历数据进行仿真和真实医疗多机构实验验证后，本文表明 Review Learning 能够高效保留之前学习的知识。

Oct, 2022

基于模型无关生成回放的终身强化学习：以星际争霸 2 为例

本研究研究了三种 LRL 模型的生成式重演（GR）机制，提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明，该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移，缩小了训练样本数量，具有较高的实验价值。

Aug, 2022

具备知识整合的记忆高效强化学习

我们提出了一种基于深度 Q 网络算法的记忆效率强化学习算法，通过从目标 Q 网络到当前 Q 网络合并知识，减少遗忘并保持高的样本效率。与基线方法相比，在特征和图像任务中取得了相当或更好的性能，同时减轻了大经验重放缓冲区的负担。

May, 2022