结构化动作空间的多样化策略优化

Feb, 2023

结构化动作空间的多样化策略优化

Diverse Policy Optimization for Structured Action Space

Wenhao Li, Baoxiang Wang, Shanchao Yang, Hongyuan Zha

TL;DR本文旨在提出一种名为 DPO 的简单而有效的强化学习方法，用于在具有结构动作空间的 RL 任务中寻求多样性的策略。在实验中，DPO 在 ATSC 和 Battle 基准测试中都能够有效地发现多样的策略，在挑战性场景中显著优于现有的最先进方法。

Abstract

Enhancing the diversity of policies is beneficial for robustness, exploration, and transfer in reinforcement learning (RL). In this paper, we aim to seek diverse policies in an under-explored setting, namely RL t

reinforcement learning structured action spaces policy optimization energy-based models diversity

发现论文，激发创造

DGPO: 通过多样性指导的策略优化发现多种策略

本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Jul, 2022

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于人群自我对弈学习多样化风险偏好

本研究从风险偏好角度设计出一种名为 RPPO 的新型强化学习算法，通过与不同对手对局的经验，使代理进行动态风险敏感的目标优化，从而增加自我玩耍算法的多样性，并在竞争性游戏中获得可比或更优越的性能表现。

May, 2023

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

多元政策在无回报马尔可夫决策过程中的融合

通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性，我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法，并通过数值实验验证了我们方法的有效性。

Aug, 2023

深度强化学习中的鲁棒策略优化

本文介绍了一种名为 Robust Policy Optimization 的算法，该算法应用于强化学习中，利用扰动分布来提高策略的熵，提高探索性能，取得了比 PPO 等算法更好的性能表现，并在多个环境中表现出鲁棒性能。

Dec, 2022

快速和安全策略改进的多样化探索

本文提出一种新的探索策略 —— 多样性探索（DE），通过学习和部署一组多样性的安全策略来探索环境，从而实现在线强化学习领域中快速并安全地改进策略，通过实证研究表明该方法可以同时实现快速策略改进和安全在线性能。

Feb, 2018

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018