深度强化学习自适应路径约束的探索策略

Dec, 2023

深度强化学习自适应路径约束的探索策略

Adaptive trajectory-constrained exploration strategy for deep reinforcement learning

Guojian Wang, Faguo Wu, Xiao Zhang, Ning Guo, Zhiming Zheng

TL;DR提出了一种用于深度强化学习的高效适应性轨迹约束探索策略，利用不完整的离线演示作为参考，引入了一种新的基于策略梯度的优化算法，为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证，证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。

Abstract

deep reinforcement learning (DRL) faces significant challenges in addressing the hard-exploration problems in tasks with sparse or deceptive rewards and large state spaces. These challenges severely limit the pra

deep reinforcement learning exploration offline demonstrations policy-gradient-based optimization temporally extended exploration

发现论文，激发创造

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

基于轨迹的稀疏奖励策略优化

利用离线演示轨迹的强化学习方法，通过最大均值差异（MMD）计算轨迹距离并将策略优化视为一种受距离限制的优化问题，从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态 - 动作访问边缘分布，从而在稀疏奖励环境下提供了更快且更高效的在线强化学习方法。

Jan, 2024

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

高效稳定的多步稀疏奖励强化学习的抽象演示和自适应探索

本文提出了一种 DRL 探索技术 A^2，通过将复杂任务分解成子任务、提供正确的子任务顺序以及自适应探索环境的方式，改善了学习效率，实验表明在多个任务中，A^2 有助于 DQN、DDPG 和 SAC 等普通 DRL 算法在这些环境中更高效、更稳定地学习。

Jul, 2022

基于深度强化学习的避障轨迹规划与鲁棒低层控制方法在机器人操纵器中的应用

在机器人学中，我们提出了一种集成无障碍深度强化学习轨迹规划器和新颖的自适应低级和关节级控制策略的方法，通过与环境的交互来激活学习阶段，解决了学习基于模型的复杂性和稳定性和安全性之间的挑战。

Feb, 2024

稀疏奖励下连续控制任务中的本地持久探索

本文提出了一种新的基于探索者轨迹的探索策略，使用局部自避步态生成方法，结合合适的状态平均距离，来为稀疏奖励的连续状态和行动空间提供短时记忆，实现高效的环境探索。

Dec, 2020

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

分布式鲁棒强化学习

本文提出了一种基于风险规避的探索策略，使用分布式鲁棒策略迭代方案来确保学习过程中的安全，并在连续状态 / 操作空间中扩展了此方法，得出了分布式鲁棒软演员 - 批评家算法的实用算法。

Feb, 2019

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022