深度强化学习多样性驱动的探索策略

Feb, 2018

深度强化学习多样性驱动的探索策略

Diversity-Driven Exploration Strategy for Deep Reinforcement Learning

Zhang-Wei Hong, Tzu-Yun Shann, Shih-Yang Su, Yi-Hsiang Chang, Chun-Yi Lee

TL;DR本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Abstract

Efficient exploration remains a challenging research problem in reinforcement learning, especially when an environment contains large state spaces, deceptive local optima, or sparse rewards. To tackle this proble

reinforcement learning exploration distance measure local optima adaptive scaling

发现论文，激发创造

快速和安全策略改进的多样化探索

本文提出一种新的探索策略 —— 多样性探索（DE），通过学习和部署一组多样性的安全策略来探索环境，从而实现在线强化学习领域中快速并安全地改进策略，通过实证研究表明该方法可以同时实现快速策略改进和安全在线性能。

Feb, 2018

基于群体的强化学习中有效的多样性

本文介绍了一种基于行为多样性的优化方法，该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积，并通过在线学习技术适应多样性程度，从而提高探索能力，而不会降低性能。

Feb, 2020

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

深度强化学习自适应路径约束的探索策略

提出了一种用于深度强化学习的高效适应性轨迹约束探索策略，利用不完整的离线演示作为参考，引入了一种新的基于策略梯度的优化算法，为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证，证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。

Dec, 2023

迭代学习具有状态距离信息的多样化策略

基于多样性的强化学习在问题优化与策略发现方面面临基本挑战。该研究通过引入状态空间距离信息和优化计算框架，开发了一种新的多样性驱动的强化学习算法 SIPO，实现了对多个领域的多样性和人类可解释的策略的持续发现。

Oct, 2023

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

多元政策在无回报马尔可夫决策过程中的融合

通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性，我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法，并通过数值实验验证了我们方法的有效性。

Aug, 2023

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020