质量多样性与描述条件增强学习的协同
本文提出了一种新算法 QDPG,它结合了策略梯度算法和质量多样性方法,用于在连续控制环境中生成多样化和高性能的神经控制器,并且比其他进化算法更具样本效率。
Jun, 2020
本文介绍了一个灵活的框架,该框架允许使用任何强化学习(RL)算法,并通过演化代理人群体而不仅仅是策略来缓解限制,以改进 QD 在机器人控制问题中的应用。
Mar, 2023
该研究提出了一种新的方法来实现基于行为的轨迹生成,该方法基于 MAP-Elites Low-Spread 和 Quality-Diversity Transformer 两个机制,实现了在不确定环境下生成具有一致性、鲁棒性和可重复性的多样化解决方案,并能够自主地实现目标行为。
Mar, 2023
提出了使用质量多样性算法进行混合和互动游戏内容生成的想法,并通过进化地宫设计师系统实现。该功能使用 MAP-Elites 算法将人口分成多个单元格,使其在几个行为维度上的值相对。用户可以灵活地选择相关的变化维度,并将算法生成的建议合并到其地图设计中。同时,任何人类所做的修改都将反馈到 MAP-Elites 中,并用于生成更多的建议。
Jun, 2019
本文介绍了一种基于模型的 Quality-Diversity 算法,该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性,从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。
Nov, 2022
本文提出了一种名为 Diverse Quality Species (DQS) 的新型质量 - 多样性算法,能够在不需要存档或事先定义行为范围的情况下,将解决方案分解为独立进化种类,并利用无监督技能发现来学习多样化而高性能的解决方案,在多个仿真机器人环境中进行评估,结果表明 DQS 比其他 QD 算法更具样本效率和性能。
Apr, 2023
提出了一种简化版的 Quality diversity 问题 - DQD,重点解决 Objective 和 Measure 函数是一阶可微分函数的问题,并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验,表明 MEGA 显著优于现有的 QD 算法,突出了 DQD 在梯度信息可用时高效的优势。
Jun, 2021
本研究提出了一种新的多目标优化方法,将 MAP-Elites 算法中的多样性与多目标优化相结合,通过使用 Pareto Front 填充每个单元格,能够在描述符空间中提取多样性解,并在探索不同目标之间的折衷方案时提供全局性能优异的解决方案。
Feb, 2022
本文提出一种将 Quality-Diversity 优化算法与非监督降维算法相结合来自动定义行为描述符的方法,此方法可用于机器人学习行为库并在与环境交互时自主发现其能力范围,通过实验结果表明,该方法优于已有的非监督方法,机器人学习到的行为丰富多样。
May, 2019
Mix-ME 是一种基于 MAP-Elites 算法的多智能体变种方法,结合了不同团队的智能体,用混合操作符生成新解,在部分可观察的连续控制任务中,这些通过 Mix-ME 获取的多智能体变种不仅能与单一智能体基线进行竞争,而且在多智能体环境中通常表现出色。
Nov, 2023