基于 MAP-Elites 的多样化 RL 智能体群体进化
本论文介绍了一种在高维控制中应用 MAP-Elites 和 Evolution Strategies 算法的新型算法 ME-ES,用于机器人关节损伤后的恢复。该算法在强欺骗奖励的高维控制任务中表现出与现有探索算法相当的高效探索能力。
Mar, 2020
Mix-ME 是一种基于 MAP-Elites 算法的多智能体变种方法,结合了不同团队的智能体,用混合操作符生成新解,在部分可观察的连续控制任务中,这些通过 Mix-ME 获取的多智能体变种不仅能与单一智能体基线进行竞争,而且在多智能体环境中通常表现出色。
Nov, 2023
本文提出了一种基于进化策略的快速并行评估,名为 MAP-Elites-Multi-ES(MEMES)的新型 QD 算法,该算法通过保持多个独立的进化策略线程来扩展现有的 MAP-Elites-ES 算法,并引入了一种新的动态重置过程来自主地最大化 QD 种群的改进。实验结果表明,MEMES 在黑盒优化和 QD-Reinforcement 学习任务方面表现优越,并具有本地优化适应性的内在优势。
Mar, 2023
本研究提出了一种新的多目标优化方法,将 MAP-Elites 算法中的多样性与多目标优化相结合,通过使用 Pareto Front 填充每个单元格,能够在描述符空间中提取多样性解,并在探索不同目标之间的折衷方案时提供全局性能优异的解决方案。
Feb, 2022
本文提出了结合协方差矩阵自适应技术和档案映射技术以维持多样性的新型 quality diversity 算法 (CMA-ME),在连续空间的测试表明,CMA-ME 相较于 MAP-Elites 能够找到更好的解决方案以及策略多样性,表现翻倍。此算法对于同时探索和优化连续搜索空间有着极大的应用价值,可以应用于设计、测试和强化学习等领域。
Dec, 2019
提出了使用质量多样性算法进行混合和互动游戏内容生成的想法,并通过进化地宫设计师系统实现。该功能使用 MAP-Elites 算法将人口分成多个单元格,使其在几个行为维度上的值相对。用户可以灵活地选择相关的变化维度,并将算法生成的建议合并到其地图设计中。同时,任何人类所做的修改都将反馈到 MAP-Elites 中,并用于生成更多的建议。
Jun, 2019
提出了一种简化版的 Quality diversity 问题 - DQD,重点解决 Objective 和 Measure 函数是一阶可微分函数的问题,并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验,表明 MEGA 显著优于现有的 QD 算法,突出了 DQD 在梯度信息可用时高效的优势。
Jun, 2021
通过在 8 种最先进的方法上进行广泛的实证评估,本文证明了 Quality Diversity (QD) 方法是技能发现的一种有竞争力的替代方案,既可以提供相同甚至更好的性能,而且对超参数更不敏感且可扩展性更高。
Oct, 2022
本文介绍了一种基于模型的 Quality-Diversity 算法,该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性,从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。
Nov, 2022