质量多样性与描述条件增强学习的协同

Dec, 2023

质量多样性与描述条件增强学习的协同

Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement Learning

Maxence Faldor, Félix Chalumeau, Manon Flageat, Antoine Cully

TL;DRDCG-MAP-Elites 在多个挑战性连续控制运动任务中实现与所有基线模型相当或更高的 QD 得分和覆盖率。

Abstract

A fundamental trait of intelligence involves finding novel and creative solutions to address a given challenge or to adapt to unforeseen situations. Reflecting this, quality-diversity optimization is a family of Evolutionary Algorithms, that generates collections of both diverse and hi

quality-diversity optimization map-elites pga-map-elites diversity search dcg-map-elites

发现论文，激发创造

多样性策略梯度用于高效样本质量多样化优化

本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Jun, 2020

基于 MAP-Elites 的多样化 RL 智能体群体进化

本文介绍了一个灵活的框架，该框架允许使用任何强化学习（RL）算法，并通过演化代理人群体而不仅仅是策略来缓解限制，以改进 QD 在机器人控制问题中的应用。

Mar, 2023

质量 - 多样性转换器：使用决策 Transformer 生成行为条件轨迹

该研究提出了一种新的方法来实现基于行为的轨迹生成，该方法基于 MAP-Elites Low-Spread 和 Quality-Diversity Transformer 两个机制，实现了在不确定环境下生成具有一致性、鲁棒性和可重复性的多样化解决方案，并能够自主地实现目标行为。

Mar, 2023

互动约束 MAP-Elites 在地下城设计中的优质多样性增强

提出了使用质量多样性算法进行混合和互动游戏内容生成的想法，并通过进化地宫设计师系统实现。该功能使用 MAP-Elites 算法将人口分成多个单元格，使其在几个行为维度上的值相对。用户可以灵活地选择相关的变化维度，并将算法生成的建议合并到其地图设计中。同时，任何人类所做的修改都将反馈到 MAP-Elites 中，并用于生成更多的建议。

Jun, 2019

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022

通过多样质量种群实现高效的质量多样性优化

本文提出了一种名为 Diverse Quality Species (DQS) 的新型质量 - 多样性算法，能够在不需要存档或事先定义行为范围的情况下，将解决方案分解为独立进化种类，并利用无监督技能发现来学习多样化而高性能的解决方案，在多个仿真机器人环境中进行评估，结果表明 DQS 比其他 QD 算法更具样本效率和性能。

Apr, 2023

可微分的质量多样性

提出了一种简化版的 Quality diversity 问题 - DQD，重点解决 Objective 和 Measure 函数是一阶可微分函数的问题，并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验，表明 MEGA 显著优于现有的 QD 算法，突出了 DQD 在梯度信息可用时高效的优势。

Jun, 2021

多目标质量多样性优化

本研究提出了一种新的多目标优化方法，将 MAP-Elites 算法中的多样性与多目标优化相结合，通过使用 Pareto Front 填充每个单元格，能够在描述符空间中提取多样性解，并在探索不同目标之间的折衷方案时提供全局性能优异的解决方案。

Feb, 2022

基于质量多样性与无监督描述符的自主技能发现

本文提出一种将 Quality-Diversity 优化算法与非监督降维算法相结合来自动定义行为描述符的方法，此方法可用于机器人学习行为库并在与环境交互时自主发现其能力范围，通过实验结果表明，该方法优于已有的非监督方法，机器人学习到的行为丰富多样。

May, 2019

Mix-ME: 多智能体学习的多样性质量

Mix-ME 是一种基于 MAP-Elites 算法的多智能体变种方法，结合了不同团队的智能体，用混合操作符生成新解，在部分可观察的连续控制任务中，这些通过 Mix-ME 获取的多智能体变种不仅能与单一智能体基线进行竞争，而且在多智能体环境中通常表现出色。

Nov, 2023