快速和安全策略改进的多样化探索

AAAIFeb, 2018

快速和安全策略改进的多样化探索

Diverse Exploration for Fast and Safe Policy Improvement

Andrew Cohen, Lei Yu, Robert Wright

TL;DR本文提出一种新的探索策略 —— 多样性探索（DE），通过学习和部署一组多样性的安全策略来探索环境，从而实现在线强化学习领域中快速并安全地改进策略，通过实证研究表明该方法可以同时实现快速策略改进和安全在线性能。

Abstract

We study an important yet under-addressed problem of quickly and safely improving policies in online reinforcement learning domains. As its solution, we propose a novel exploration strategy - diverse exploration

online reinforcement learning diverse exploration policy improvement safe performance empirical study

发现论文，激发创造

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

基于共轭策略的策略梯度方法的多样化探索

本文提出通过共轭策略的多样化探索（DE），以解决在政策梯度方法中保持良好性能的有效探索的问题，DE 学习和应用一组共轭策略，并提供了理论和实证结果，证明 DE 实现了探索，提高了策略性能，并优于探索随机策略扰动。

Feb, 2019

强化学习中勘探对泛化的重要性

基于探索的深度强化学习方法对新环境具有良好的泛化能力，通过使用一种基于 Q 值分布集合的探索方法，该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。

Jun, 2023

多样性驱动可扩展的层次强化学习

本论文提出多层次强化学习 (DEHRL) 框架，使用多个层次以实现对高度抽象目标的学习。通过对 DEHRL 的实验评估，结果表明，DEHRL 在四个方面超过了现有技术的基准线。

Nov, 2018

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

多元政策在无回报马尔可夫决策过程中的融合

通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性，我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法，并通过数值实验验证了我们方法的有效性。

Aug, 2023

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

结构化动作空间的多样化策略优化

本文旨在提出一种名为 DPO 的简单而有效的强化学习方法，用于在具有结构动作空间的 RL 任务中寻求多样性的策略。在实验中，DPO 在 ATSC 和 Battle 基准测试中都能够有效地发现多样的策略，在挑战性场景中显著优于现有的最先进方法。

Feb, 2023

基于群体的强化学习中有效的多样性

本文介绍了一种基于行为多样性的优化方法，该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积，并通过在线学习技术适应多样性程度，从而提高探索能力，而不会降低性能。

Feb, 2020

DGPO: 通过多样性指导的策略优化发现多种策略

本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Jul, 2022