强化学习中可微分多样性的梯度逼近

Feb, 2022

强化学习中可微分多样性的梯度逼近

Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning

Bryon Tjanaka, Matthew C. Fontaine, Julian Togelius, Stefanos Nikolaidis

TL;DR探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Abstract

Consider the problem of training robustly capable agents. One approach is to generate a diverse collection of agent polices. training can then be viewed as a quality diversity (QD) optimization problem, where we

training quality diversity optimization differentiable quality diversity algorithm gradients approximation simulated locomotion tasks

发现论文，激发创造

质量多样性强化学习的近端策略梯度树形结构

本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

May, 2023

多样性策略梯度用于高效样本质量多样化优化

本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Jun, 2020

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022

利用分布比率估算器来优化具有质量和多样性的学习智能体

本文介绍了一种基于 Kernals 和 $f$-divergence 的 Quality-Diversity 方法，可以用于神经进化和强化学习等领域，在同时获得高任务回报和行为多样性的优化代理的过程中有效地估计各个策略之间的状态分布系数并求解梯度。

Nov, 2020

可微分的质量多样性

提出了一种简化版的 Quality diversity 问题 - DQD，重点解决 Objective 和 Measure 函数是一阶可微分函数的问题，并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验，表明 MEGA 显著优于现有的 QD 算法，突出了 DQD 在梯度信息可用时高效的优势。

Jun, 2021

多样性导向的策略梯度：利用最大平均差异找到一组不同的策略

本文使用基于梯度的优化技术，旨在找到不同行为的多样化的性能良好的策略集，在强化学习方法中，鉴别近似最优策略集的重要性被正式化和研究，并在基准测试和医疗保健任务中展示了应用效果。

May, 2019

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

稀疏奖励和稀疏互动下的质量多样性：机器人抓取的应用

通过评估框架，该研究工作在 10 个不同抓取领域进行了 15 种方法的实验，结果显示优先选择成功解决方案的 MAP-Elites 变体在所研究的指标上大大优于其他方法，并发现稀疏交互可能导致迷惑性的新颖性，此工作在文献中具有创新性地有效产生了抓取轨迹示例，这方面没有先例。

Aug, 2023

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022

Quality-Diversity 与深度强化学习之间的协同作用理解

研究提出了一个统一的模块化框架，名为通用 Actor-Critic Quality-Diversity Deep Reinforcement Learning，以探究深度强化学习中的洞察，并将其应用于 Quality-Diversity 算法，进而提出 PGA-ME (SAC) 和 PGA-ME（DroQ）算法以解决人性化难题，同时演示了境外评估对演员批评模型的必要性。

Mar, 2023