多样性导向的策略梯度：利用最大平均差异找到一组不同的策略

May, 2019

多样性导向的策略梯度：利用最大平均差异找到一组不同的策略

Diversity-Inducing Policy Gradient: Using Maximum Mean Discrepancy to Find a Set of Diverse Policies

Muhammad A. Masood, Finale Doshi-Velez

TL;DR本文使用基于梯度的优化技术，旨在找到不同行为的多样化的性能良好的策略集，在强化学习方法中，鉴别近似最优策略集的重要性被正式化和研究，并在基准测试和医疗保健任务中展示了应用效果。

Abstract

Standard reinforcement learning methods aim to master one way of solving a task whereas there may exist multiple near-optimal policies. Being able to identify this collection of →

reinforcement learning near-optimal policies diversity gradient-based optimization healthcare task

发现论文，激发创造

强化学习中可微分多样性的梯度逼近

探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Feb, 2022

提高熵以提升个性化任务的政策梯度性能

基于策略梯度的强化学习代理为了多样性，探究了正则化对行动多样性的影响，并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势，同时不损失准确性。

Oct, 2023

利用后继特征发现多样化近似最优策略

本篇研究提出了一种名为 'Diverse Successive Policies' 的新型方法，应用在强化学习中以发掘具有多样性的政策集合，进而实现探索、迁移、层级和鲁棒性等目标。该方法通过将问题形式化为一种约束马尔科夫决策过程（CMDP）实现最大化多样性、最小化多样性奖励之间的相关性以及保证策略的近最优性。研究还发现了最近提出的鲁棒性奖励和差异奖励对实验的灵敏度以及收敛方向等诸多限制，进而提出了新型的多样性奖励机制应对此类限制。实验结果表明，该多样性奖励机制能够有效发现不同区分度的行为模式。

Jun, 2021

合作智能体的政策多样性

标准的多智能体强化学习方法旨在找到完成任务的最优团队合作策略。然而，在不同的合作方式中可能存在多种选择，这往往极大地增加了领域专家的任务复杂性。因此，我们提出了一种名为 Moment-Matching Policy Diversity 的方法，该方法通过形式化不同策略所选智能体的行为差异来生成不同的团队策略。理论上，我们证明了该方法是通过使用最大均值差异来实现约束优化问题的简单方式。我们的方法的有效性在一个具有挑战性的基于团队的射击游戏中得到了验证。

Aug, 2023

DGPO: 通过多样性指导的策略优化发现多种策略

本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Jul, 2022

多元政策在无回报马尔可夫决策过程中的融合

通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性，我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法，并通过数值实验验证了我们方法的有效性。

Aug, 2023

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

基于轨迹的稀疏奖励策略优化

利用离线演示轨迹的强化学习方法，通过最大均值差异（MMD）计算轨迹距离并将策略优化视为一种受距离限制的优化问题，从离线演示学习到的形状奖励函数实现了与离线演示相匹配的状态 - 动作访问边缘分布，从而在稀疏奖励环境下提供了更快且更高效的在线强化学习方法。

Jan, 2024

多样性策略梯度用于高效样本质量多样化优化

本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Jun, 2020

深度强化学习多样性驱动的探索策略

本文介绍了一种基于差异性驱动的强化学习探索方法，结合在线和离线强化学习算法，通过向损失函数中添加距离度量，显著提高了代理的探索行为，从而防止局部最优解以及进行了学习进程的自适应缩放方法，实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.

Feb, 2018