质量多样性强化学习的近端策略梯度树形结构

May, 2023

质量多样性强化学习的近端策略梯度树形结构

Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning

Sumeet Batra, Bryon Tjanaka, Matthew C. Fontaine, Aleksei Petrenko, Stefanos Nikolaidis...

TL;DR本文介绍如何使用高通量模拟器和在线学习方法相结合的 QD-RL 算法来训练能够在未知动态环境下表现良好的机器人，PPGA 算法在人形机器人领域实现了 4 倍的改进。

Abstract

Training generally capable agents that perform well in unseen dynamic environments is a long-term goal of robot learning. Quality Diversity Reinforcement Learning (QD-RL) is an emerging class of reinforcement learning (RL) algorithms that blend insights from Quality Diversity (QD) and

quality diversity reinforcement learning robot learning off-policy rl algorithms proximal policy optimization high-throughput simulators

发现论文，激发创造

强化学习中可微分多样性的梯度逼近

探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Feb, 2022

多样性策略梯度用于高效样本质量多样化优化

本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Jun, 2020

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023

基于分位数的强化学习策略优化

本文提出了一种名为 Quantile-Based Policy Optimization（QPO）的 RL 算法，与原有算法相比在 quantile 目标的情况下表现更好，算法使用神经网络对策略进行参数化，同时使用两个相互耦合的迭代来估计量位和策略参数。

Jan, 2022

Quality-Diversity 与深度强化学习之间的协同作用理解

研究提出了一个统一的模块化框架，名为通用 Actor-Critic Quality-Diversity Deep Reinforcement Learning，以探究深度强化学习中的洞察，并将其应用于 Quality-Diversity 算法，进而提出 PGA-ME (SAC) 和 PGA-ME（DroQ）算法以解决人性化难题，同时演示了境外评估对演员批评模型的必要性。

Mar, 2023

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

使用基于模型的品质多样性和梯度的高效探索

本文介绍了一种基于模型的 Quality-Diversity 算法，该算法通过对所有群体成员进行有效的探索和利用想象中的扰动来同时维持性能和高效的多样性，从而提高人群算法在具有欺骗性奖励的任务中的样本效率和解决方案质量。

Nov, 2022

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022

稀疏奖励和稀疏互动下的质量多样性：机器人抓取的应用

通过评估框架，该研究工作在 10 个不同抓取领域进行了 15 种方法的实验，结果显示优先选择成功解决方案的 MAP-Elites 变体在所研究的指标上大大优于其他方法，并发现稀疏交互可能导致迷惑性的新颖性，此工作在文献中具有创新性地有效产生了抓取轨迹示例，这方面没有先例。

Aug, 2023

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

通过 Reset-Free QD 算法和动力学模型，在物理机器人上直接学习控制器，以提高样本效率和生成最佳存档，从而使物理四足机器人在两小时内学习到行为技能库。

Apr, 2023