DGPO: 通过多样性指导的策略优化发现多种策略

Jul, 2022

DGPO: 通过多样性指导的策略优化发现多种策略

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization

Wenze Chen, Shiyu Huang, Yuan Chiang, Ting Chen, Jun Zhu

TL;DR本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Abstract

Recent algorithms designed for reinforcement learning tasks focus on finding a single optimal solution. However, in many practical applications, it is important to develop reasonable agents with diverse strategies. In this paper, we propose →

reinforcement learning diversity-guided policy optimization latent code multiple strategies probabilistic inference

发现论文，激发创造

基因蒸馏的政策优化

本文提出一种新的基因算法，名为遗传策略优化（GPO），用于样本有效的深度策略优化，通过状态空间中的模仿学习进行策略交叉并应用策略梯度方法进行变异，实验结果表明，GPO 优于现有的策略梯度方法，并实现了相当或更高的样本效率。

Nov, 2017

结构化动作空间的多样化策略优化

本文旨在提出一种名为 DPO 的简单而有效的强化学习方法，用于在具有结构动作空间的 RL 任务中寻求多样性的策略。在实验中，DPO 在 ATSC 和 Battle 基准测试中都能够有效地发现多样的策略，在挑战性场景中显著优于现有的最先进方法。

Feb, 2023

多样性策略梯度用于高效样本质量多样化优化

本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Jun, 2020

图扩散策略优化

通过加强学习，本研究引入了一种新颖的图扩散策略优化（GDPO）方法，通过针对任意（例如，非可微分）目标优化图扩散模型，用于药物设计等领域的图生成，实验结果表明 GDPO 在具有复杂和多样目标的各种图生成任务中实现了最先进的性能。

Feb, 2024

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

Bregman 梯度策略优化

本文提出了一种基于 Bregman 距离和动量技术的强化学习的 Bregman 梯度策略优化框架，通过基本动量技术和镜像下降迭代提出 Bregman 梯度策略优化（BGPO）算法，同时进一步提出基于方差降低技术的加速 Bregman 梯度策略优化（VR-BGPO）算法，并接着提出了对非凸情况下的 Bregman 梯度策略优化的收敛性分析框架，实验结果表明了该算法的高效性。

Jun, 2021

多样性导向的策略梯度：利用最大平均差异找到一组不同的策略

本文使用基于梯度的优化技术，旨在找到不同行为的多样化的性能良好的策略集，在强化学习方法中，鉴别近似最优策略集的重要性被正式化和研究，并在基准测试和医疗保健任务中展示了应用效果。

May, 2019

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018

DOMiNO: 多样性优化，保持接近最优的发现策略

该论文提出了 DOMiNO 方法用于强化学习中多样性和优化的平衡，通过约束马尔可夫决策过程找到不同的策略，能够发现具有意义的多种行为并且对干扰有很强的鲁棒性。

May, 2022

约束生成策略优化（CGPO）：混合离散连续 MDPs 的策略优化的非线性规划

提出了 Constraint-Generation Policy Optimization（CGPO）来优化混合离散 - 连续马氏决策过程（DC-MDPs）中紧凑且可解释的策略类的策略参数。CGPO 能够在许多具有表达性非线性动力学的 DC-MDPs 上提供无限范围内初始状态的有界策略误差保证，并在结束时可以证明导出最优策略。此外，CGPO 还能生成最坏情况下的状态轨迹来诊断策略缺陷，并提供最优操作的反事实解释。通过提出一个双层混合整数非线性优化框架，并将其简化为一个生成最坏情况下状态轨迹的最优约束生成方法，CGPO 实现了这些结果。此外，利用现代非线性优化器，CGPO 可以获得带有有界最优性差的解。我们通过显式边际化（如适用）或概率约束处理随机转换，提供高概率的策略性能保证。我们还提出了理解不同策略、奖励和转换动力学表达性类的计算复杂性的路线图。实验证明了 CGPO 在各种领域的适用性，包括库存控制、水库系统管理和物理控制等。总之，我们提供了一种解决方案，用于推导带有有界性能保证、紧凑且可解释的结构化策略，实现最坏情况的生成和反事实策略诊断。

Jan, 2024