基于 MAP-Elites 的多样化 RL 智能体群体进化

Mar, 2023

基于 MAP-Elites 的多样化 RL 智能体群体进化

Evolving Populations of Diverse RL Agents with MAP-Elites

Thomas Pierrot, Arthur Flajolet

TL;DR本文介绍了一个灵活的框架，该框架允许使用任何强化学习（RL）算法，并通过演化代理人群体而不仅仅是策略来缓解限制，以改进 QD 在机器人控制问题中的应用。

Abstract

quality diversity (QD) has emerged as a powerful alternative optimization paradigm that aims at generating large and diverse collections of solutions, notably with its flagship algorithm map-elites (ME) which evo

quality diversity map-elites reinforcement learning robotics control problems evolving populations

发现论文，激发创造

将 MAP-Elites 扩展到深度神经进化

本论文介绍了一种在高维控制中应用 MAP-Elites 和 Evolution Strategies 算法的新型算法 ME-ES，用于机器人关节损伤后的恢复。该算法在强欺骗奖励的高维控制任务中表现出与现有探索算法相当的高效探索能力。

Mar, 2020

Mix-ME: 多智能体学习的多样性质量

Mix-ME 是一种基于 MAP-Elites 算法的多智能体变种方法，结合了不同团队的智能体，用混合操作符生成新解，在部分可观察的连续控制任务中，这些通过 Mix-ME 获取的多智能体变种不仅能与单一智能体基线进行竞争，而且在多智能体环境中通常表现出色。

Nov, 2023

多人合力：使用多个并行进化策略的 MAP-Elites 提升质量和多样性

本文提出了一种基于进化策略的快速并行评估，名为 MAP-Elites-Multi-ES（MEMES）的新型 QD 算法，该算法通过保持多个独立的进化策略线程来扩展现有的 MAP-Elites-ES 算法，并引入了一种新的动态重置过程来自主地最大化 QD 种群的改进。实验结果表明，MEMES 在黑盒优化和 QD-Reinforcement 学习任务方面表现优越，并具有本地优化适应性的内在优势。

Mar, 2023

质量多样性与描述条件增强学习的协同

DCG-MAP-Elites 在多个挑战性连续控制运动任务中实现与所有基线模型相当或更高的 QD 得分和覆盖率。

Dec, 2023

多目标质量多样性优化

本研究提出了一种新的多目标优化方法，将 MAP-Elites 算法中的多样性与多目标优化相结合，通过使用 Pareto Front 填充每个单元格，能够在描述符空间中提取多样性解，并在探索不同目标之间的折衷方案时提供全局性能优异的解决方案。

Feb, 2022

协方差矩阵适应性算法及其在行为空间快速搜索中的应用

本文提出了结合协方差矩阵自适应技术和档案映射技术以维持多样性的新型 quality diversity 算法 (CMA-ME)，在连续空间的测试表明，CMA-ME 相较于 MAP-Elites 能够找到更好的解决方案以及策略多样性，表现翻倍。此算法对于同时探索和优化连续搜索空间有着极大的应用价值，可以应用于设计、测试和强化学习等领域。

Dec, 2019

互动约束 MAP-Elites 在地下城设计中的优质多样性增强

提出了使用质量多样性算法进行混合和互动游戏内容生成的想法，并通过进化地宫设计师系统实现。该功能使用 MAP-Elites 算法将人口分成多个单元格，使其在几个行为维度上的值相对。用户可以灵活地选择相关的变化维度，并将算法生成的建议合并到其地图设计中。同时，任何人类所做的修改都将反馈到 MAP-Elites 中，并用于生成更多的建议。

Jun, 2019

可微分的质量多样性

提出了一种简化版的 Quality diversity 问题 - DQD，重点解决 Objective 和 Measure 函数是一阶可微分函数的问题，并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验，表明 MEGA 显著优于现有的 QD 算法，突出了 DQD 在梯度信息可用时高效的优势。

Jun, 2021

神经进化是技能发现中替代强化学习的竞争性方法

通过在 8 种最先进的方法上进行广泛的实证评估，本文证明了 Quality Diversity (QD) 方法是技能发现的一种有竞争力的替代方案，既可以提供相同甚至更好的性能，而且对超参数更不敏感且可扩展性更高。

Oct, 2022

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022