高回放比与规则化的高效稀疏奖励目标条件式强化学习

Dec, 2023

高回放比与规则化的高效稀疏奖励目标条件式强化学习

Efficient Sparse-Reward Goal-Conditioned Reinforcement Learning with a High Replay Ratio and Regularization

Takuya Hiraoka

TL;DR纵观文中，研究主要集中在强化学习方法中如何将高重放比率（RR）与正则化相结合，以推进稀疏奖励目标条件任务并提高样本效率。作者对 Randomized Ensemble Double Q-learning 方法进行了修改并应用于稀疏奖励目标条件任务，在 12 个机器人学任务的评估中表现出了约 2 倍于先前的最先进强化学习方法的样本效率，并同时降低了 REDQ 的复杂性，使之在 4 个 Fetch 机器人任务中达到了约 8 倍于先前方法的样本效率。

Abstract

reinforcement learning (RL) methods with a high replay ratio (RR) and regularization have gained interest due to their superior sample efficiency. However, these methods have mainly been developed for dense-rewar

reinforcement learning sparse-reward goal-conditioned tasks randomized ensemble double q-learning hindsight experience replay sample efficiency

发现论文，激发创造

竞争性经验回放

本研究提出了一种称为 competitive experience replay 的新型方法，在一个探索竞争环境中补充一种稀疏奖励，以两个代理之间的竞争推动探索。在一些基于二进制奖励任务中，对该方法进行了广泛的实验，证明这种方法会导致更快的收敛和改进的任务表现。

Feb, 2019

针对多任务稀疏奖励环境的基于价值的连续控制机器人操作强化学习

本文研究如何利用基于价值的深度强化学习方法，通过使用改善技术来提高深度 Q 学习（Deep Q learning）的效率，在多任务稀疏奖励机制下完成机器人操作任务。我们的实验表明，价值法比政策梯度法对数据增强和回放缓冲样本技术更加敏感，这些方法对于机器人操作的好处取决于生成的子目标状态的转移动力学。

Jul, 2021

最大熵正则化的多目标强化学习

通过加权熵的方法构建的一个新的多目标强化学习优化目标，同时配合最大熵法优化，通过比较 OpenAI Gym 的多目标机器人任务与其他基线实验，证实了该方法在性能和样本效率方面具有显著的改进。

May, 2019

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

事后经验回放

本文提出了一种名为 Hindsight Experience Replay 的新颖技术，它可以有效地学习来自于稀疏二元奖励的知识，避免了复杂奖励工程，并且可以与任意离线 RL 算法相结合，被视为一种隐式的课程。通过在三种不同的任务上进行实验，推动、滑动和拿取 - 放置，每个任务只使用指示任务是否完成的二元奖励，我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明，Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素，并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上，并成功地完成任务。

Jul, 2017

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于 GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022

通过随机回报分解学习长期奖励再分配

本文提出了一种基于 RRD (Randomized Return Decomposition) 算法的代理奖励机制，从而解决了强化学习中因奖励稀疏和延迟所引起的问题，并在基准任务上获得了显著的改进。

Nov, 2021

稀疏奖励目标条件强化学习的瞬态自我模仿降维

该论文提出了一种新的强化学习方法 PIAR，通过在在线和离线阶段交替进行强化学习和监督学习，采用任务缩减和内在奖励等技术，显著提高了样本效率，并在真实机器人控制问题中表现出色。

Jun, 2022

双倍高效强化学习的 Dropout Q 函数

DroQ is proposed to improve the computational efficiency of REDQ. Dropout Q-functions equipped with dropout connection and layer normalization are used, achieving comparable sample efficiency with REDQ and better computational efficiency than both REDQ and SAC.

Oct, 2021