基于种群的强化学习的相位多样性优化

Mar, 2024

基于种群的强化学习的相位多样性优化

Phasic Diversity Optimization for Population-Based Reinforcement Learning

Jingcheng Jiang, Haiyin Piao, Yu Fu, Yihang Hao, Chuanlu Jiang...

TL;DR多样性强化学习中的多样性优化算法中，通过引入一种称为 Phasic Diversity Optimization (PDO) 的基于群体训练的框架，将奖励和多样性分别训练，并在敌对空战和 MuJoCo 仿真中的实验表明，其性能优于基线算法。

Abstract

Reviewing the previous work of diversity Rein-forcement Learning,diversity is often obtained via an augmented loss function,which requires a balance between reward and diversity.Generally,diversity optimization algorithms use multi-armed bandits algorithms to select the coefficient in

diversity reinforcement learning multi-armed bandits phasic diversity optimization population-based training dogfight scenario

发现论文，激发创造

基于群体的强化学习中有效的多样性

本文介绍了一种基于行为多样性的优化方法，该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积，并通过在线学习技术适应多样性程度，从而提高探索能力，而不会降低性能。

Feb, 2020

质量和多样性优化：一个统一的模块化框架

本文提出了一个全面的质量多样性优化算法统一框架，探讨了该算法族群的大量变体，并提出了一种新的集合管理机制解决了在使用无结构的集合时观察到的侵蚀问题，同时还提出了使用质量多样性优化算法的新的选择机制，其性能比本文测试的所有算法都要好，这三个贡献都得到了质量多样化算法在三个不同实验场景下的广泛实验比较的支持。

May, 2017

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

基于人群自我对弈学习多样化风险偏好

本研究从风险偏好角度设计出一种名为 RPPO 的新型强化学习算法，通过与不同对手对局的经验，使代理进行动态风险敏感的目标优化，从而增加自我玩耍算法的多样性，并在竞争性游戏中获得可比或更优越的性能表现。

May, 2023

多元政策在无回报马尔可夫决策过程中的融合

通过提供一个统一的多样性强化学习框架并研究多样性政策的收敛性，我们在这篇论文中提出了一个经过证明的有效多样性强化学习算法，并通过数值实验验证了我们方法的有效性。

Aug, 2023

DGPO: 通过多样性指导的策略优化发现多种策略

本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Jul, 2022

多约束最优下的本地导航多技能学习

通过约束优化观点，本文在多样性和质量之间的权衡中获得不同的策略，以及通过吸引 - 排斥奖励项来控制多样性水平，在本文中展示了这种方法的有效性，并成功地在一个本地导航任务中训练出的策略转移到了实际的四足机器人 Solo12 上，并展示了多样的机敏行为和成功的障碍物穿越。

Oct, 2023

DOMiNO: 多样性优化，保持接近最优的发现策略

该论文提出了 DOMiNO 方法用于强化学习中多样性和优化的平衡，通过约束马尔可夫决策过程找到不同的策略，能够发现具有意义的多种行为并且对干扰有很强的鲁棒性。

May, 2022

多目标质量多样性优化

本研究提出了一种新的多目标优化方法，将 MAP-Elites 算法中的多样性与多目标优化相结合，通过使用 Pareto Front 填充每个单元格，能够在描述符空间中提取多样性解，并在探索不同目标之间的折衷方案时提供全局性能优异的解决方案。

Feb, 2022

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022