基于神经进化的强化学习质量多样性算法基准测试

Nov, 2022

基于神经进化的强化学习质量多样性算法基准测试

Benchmarking Quality-Diversity Algorithms on Neuroevolution for Reinforcement Learning

Manon Flageat, Bryan Lim, Luca Grillotti, Maxime Allard, Simón C. Smith...

TL;DR本文提出了一个深度神经进化强化学习机器人控制的质量多样性基准套件，包括任务，环境，行为描述符和适应性。基准使用标准的质量多样性指标，优势和档案概要指标来量化覆盖和适应度之间的关系，同时介绍了相对于环境随机性的解决方案的健壮性度量方式。我们相信本基准是一个有价值的工具，可以用于比较和改进研究结果。

Abstract

We present a quality-diversity benchmark suite for deep neuroevolution in →

quality-diversity deep neuroevolution reinforcement learning robot control benchmark

发现论文，激发创造

评估优质多样性神经进化算法在难度较高的探索问题中的表现

本篇研究提出了三个基准测试，旨在通过质量多样性方法的系统性评估来解决控制问题和探索难题。

Nov, 2022

神经进化是技能发现中替代强化学习的竞争性方法

通过在 8 种最先进的方法上进行广泛的实证评估，本文证明了 Quality Diversity (QD) 方法是技能发现的一种有竞争力的替代方案，既可以提供相同甚至更好的性能，而且对超参数更不敏感且可扩展性更高。

Oct, 2022

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022

通过多样质量种群实现高效的质量多样性优化

本文提出了一种名为 Diverse Quality Species (DQS) 的新型质量 - 多样性算法，能够在不需要存档或事先定义行为范围的情况下，将解决方案分解为独立进化种类，并利用无监督技能发现来学习多样化而高性能的解决方案，在多个仿真机器人环境中进行评估，结果表明 DQS 比其他 QD 算法更具样本效率和性能。

Apr, 2023

基于质量多样性与无监督描述符的自主技能发现

本文提出一种将 Quality-Diversity 优化算法与非监督降维算法相结合来自动定义行为描述符的方法，此方法可用于机器人学习行为库并在与环境交互时自主发现其能力范围，通过实验结果表明，该方法优于已有的非监督方法，机器人学习到的行为丰富多样。

May, 2019

仅靠运气不行：在不确定领域增强品质多样化解决方案的行为可重复性

本文提出了一种 Archive Reproducibility Improvement Algorithm（ARIA）的方法，基于自然进化策略，用于改善质量 - 多样性（Quality-Diversity）算法在噪声环境下的可重现性，并对其在优化问题和模拟机器人环境中进行了测试，得出其可以提高给定存档的质量和描述符空间覆盖率至少 50% 的结论。

Apr, 2023

利用分布比率估算器来优化具有质量和多样性的学习智能体

本文介绍了一种基于 Kernals 和 $f$-divergence 的 Quality-Diversity 方法，可以用于神经进化和强化学习等领域，在同时获得高任务回报和行为多样性的优化代理的过程中有效地估计各个策略之间的状态分布系数并求解梯度。

Nov, 2020

动态品质多样性搜索

该论文介绍了一种新颖且通用的动态质量多样性 (Dynamic QD) 方法，旨在在环境发生变化的情况下更新过去解决方案的存档，并将其应用于进化搜索的动态环境。

Apr, 2024

通过质量多样性实现程序化内容生成

Quality-diversity algorithms, with explicit behavior metrics searching for a set of high-quality and diverse solutions, provide new opportunities for AI game-playing and procedural content generation, enabling creative human-AI interactions and adaptivity.

Jul, 2019

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022