动态体验回放

Mar, 2020

Dynamic Experience Replay

Jieliang Luo, Hui Li

TL;DR提出了一种名为动态经验重放（DER）的新技术，它允许强化学习算法不仅使用人类示范的经验重放样本，还使用训练期间由 RL 代理生成的成功转移，因此提高了训练效率，并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验，并比较不同的重放缓冲区结构和 DER 在其中的影响。

Abstract

We present a novel technique called dynamic experience replay (DER) that allows reinforcement learning (RL) algorithms to use experience replay samples not only from human demonstrations but also successful trans

dynamic experience replay reinforcement learning off-policy algorithms tight-fitting joint assembly robotic tasks

发现论文，激发创造

利用演示来解决机器人问题中稀疏奖励的深度强化学习

本文提出了一种利用展示学习技术来解决高维度控制问题的机器人强化学习方法。该方法基于 Deep Deterministic Policy Gradient 算法，通过人体运动学控制收集演示并不需要专门设计的奖励函数，可应用于插入操作等实际机器操作中。

Jul, 2017

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

REBOOT：重用数据用于高效的实际情境灵巧操纵

我们介绍了一种用于学习灵巧操作技能的高效系统，通过整合最近在样本有效强化学习和重放缓冲引导方面的进展，利用来自不同任务或物体的数据作为训练新任务的起点，显著提高学习效率，同时通过基于模仿的拾取策略和学习奖励函数，消除了手动重置和奖励工程的需求，并在四指机械手上的真实环境中展示了重用先前数据作为重放缓冲初始化的好处，例如在真实世界中快速获得复杂操作技能。

Sep, 2023

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

合成体验回放

通过利用生成模型技术，我们提出了 Synthetic Experience Replay（SynthER），这是一种基于扩散的方法，能够有效地提高在数据有限的情况下训练强化学习代理的样本效率，并为重放学习算法的深度学习实现开启了使用合成数据的大门。

Mar, 2023

异步情节式深化确定性策略梯度法：面向计算复杂环境的连续控制

本文提出了一种扩展 Deep Deterministic Policy Gradient (DDPG) 的算法 Asynchronous Episodic DDPG (AE-DDPG)，通过异步学习和组合应用周期控制和动态噪声等技术，该算法在连续控制任务中取得更好的结果，具有更高的奖励和更高的数据利用效率。

Mar, 2019

分布式优先经验回放的量子深度 Q 学习

本文介绍了 QDQN-DPER 框架，以提高量子强化学习（QRL）在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中，以减少高采样复杂度。数值模拟表明，QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。

Apr, 2023

数据高效的灵巧操作深度强化学习

本研究使用深度学习和强化学习方法解决机器人的熟练操作任务，同样使用了 DDPG 算法来扩展其功能以实现更高效的数据利用与可伸缩性，成功地使用现实世界的抓取和叠放机器人的交互数据训练出其掌握复杂熟练操作技能的有效策略模型。

Apr, 2017

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015