利用分布比率估算器来优化具有质量和多样性的学习智能体

Nov, 2020

利用分布比率估算器来优化具有质量和多样性的学习智能体

Harnessing Distribution Ratio Estimators for Learning Agents with Quality and Diversity

Tanmay Gangwani, Jian Peng, Yuan Zhou

TL;DR本文介绍了一种基于 Kernals 和 $f$-divergence 的 Quality-Diversity 方法，可以用于神经进化和强化学习等领域，在同时获得高任务回报和行为多样性的优化代理的过程中有效地估计各个策略之间的状态分布系数并求解梯度。

Abstract

quality-diversity (QD) is a concept from neuroevolution with some intriguing applications to reinforcement learning. It facilitates learni

quality-diversity neuroevolution reinforcement learning policy ensemble $f$-divergence

发现论文，激发创造

强化学习中可微分多样性的梯度逼近

探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Feb, 2022

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022

多样性策略梯度用于高效样本质量多样化优化

本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Jun, 2020

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

通过人类反馈实现质量多样性

Quality Diversity through Human Feedback (QDHF) employs human feedback to expand the applicability of Quality Diversity (QD) algorithms, enhancing diversity in optimization for complex tasks.

Oct, 2023

可微分的质量多样性

提出了一种简化版的 Quality diversity 问题 - DQD，重点解决 Objective 和 Measure 函数是一阶可微分函数的问题，并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验，表明 MEGA 显著优于现有的 QD 算法，突出了 DQD 在梯度信息可用时高效的优势。

Jun, 2021

稀疏奖励和稀疏互动下的质量多样性：机器人抓取的应用

通过评估框架，该研究工作在 10 个不同抓取领域进行了 15 种方法的实验，结果显示优先选择成功解决方案的 MAP-Elites 变体在所研究的指标上大大优于其他方法，并发现稀疏交互可能导致迷惑性的新颖性，此工作在文献中具有创新性地有效产生了抓取轨迹示例，这方面没有先例。

Aug, 2023

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

基于神经进化的强化学习质量多样性算法基准测试

本文提出了一个深度神经进化强化学习机器人控制的质量多样性基准套件，包括任务，环境，行为描述符和适应性。基准使用标准的质量多样性指标，优势和档案概要指标来量化覆盖和适应度之间的关系，同时介绍了相对于环境随机性的解决方案的健壮性度量方式。我们相信本基准是一个有价值的工具，可以用于比较和改进研究结果。

Nov, 2022

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022