多样性策略梯度用于高效样本质量多样化优化

MMJun, 2020

多样性策略梯度用于高效样本质量多样化优化

Diversity Policy Gradient for Sample Efficient Quality-Diversity Optimization

Thomas Pierrot, Valentin Macé, Félix Chalumeau, Arthur Flajolet, Geoffrey Cideron...

TL;DR本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Abstract

A fascinating aspect of nature lies in its ability to produce a large and diverse collection of organisms that are all high-performing in their niche. By contrast, most AI algorithms focus on finding a single efficient solution to a given problem. Aiming for diversity in addition to performance is a convenient way to deal with the →

quality-diversity methods policy gradient algorithms neural policies continuous control environments exploration-exploitation trade-off

发现论文，激发创造

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022

强化学习中可微分多样性的梯度逼近

探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Feb, 2022

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

通过多样质量种群实现高效的质量多样性优化

本文提出了一种名为 Diverse Quality Species (DQS) 的新型质量 - 多样性算法，能够在不需要存档或事先定义行为范围的情况下，将解决方案分解为独立进化种类，并利用无监督技能发现来学习多样化而高性能的解决方案，在多个仿真机器人环境中进行评估，结果表明 DQS 比其他 QD 算法更具样本效率和性能。

Apr, 2023

可微分的质量多样性

提出了一种简化版的 Quality diversity 问题 - DQD，重点解决 Objective 和 Measure 函数是一阶可微分函数的问题，并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验，表明 MEGA 显著优于现有的 QD 算法，突出了 DQD 在梯度信息可用时高效的优势。

Jun, 2021

通过质量多样性实现程序化内容生成

Quality-diversity algorithms, with explicit behavior metrics searching for a set of high-quality and diverse solutions, provide new opportunities for AI game-playing and procedural content generation, enabling creative human-AI interactions and adaptivity.

Jul, 2019

质量多样性与描述条件增强学习的协同

DCG-MAP-Elites 在多个挑战性连续控制运动任务中实现与所有基线模型相当或更高的 QD 得分和覆盖率。

Dec, 2023

评估优质多样性神经进化算法在难度较高的探索问题中的表现

本篇研究提出了三个基准测试，旨在通过质量多样性方法的系统性评估来解决控制问题和探索难题。

Nov, 2022

DGPO: 通过多样性指导的策略优化发现多种策略

本文提出了一种基于多样性导向的动态规划策略优化算法（DGPO），该算法使用多样性对象来指导一个隐式编码策略，从而在单一的训练过程中学习出多组不同的策略，并将受外部激励约束的优化问题作为概率推理任务来解决，并使用策略迭代来最大化所得的下界。实验结果表明，该方法在各种强化学习任务中有效地找到了多样化的策略，并且与其他基线模型相比具有更高的多样性得分和相似的样本复杂度和性能。

Jul, 2022

利用分布比率估算器来优化具有质量和多样性的学习智能体

本文介绍了一种基于 Kernals 和 $f$-divergence 的 Quality-Diversity 方法，可以用于神经进化和强化学习等领域，在同时获得高任务回报和行为多样性的优化代理的过程中有效地估计各个策略之间的状态分布系数并求解梯度。

Nov, 2020