质量多样性演员 - 评论家：通过价值和继承特征评论家学习高性能和多样性行为

Mar, 2024

质量多样性演员 - 评论家：通过价值和继承特征评论家学习高性能和多样性行为

Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics

Luca Grillotti, Maxence Faldor, Borja G. León, Antoine Cully

TL;DR智能的一个关键方面是能够展示适应意外情况的广泛行为范围。在过去的十年中，深度强化学习的进展在解决复杂连续控制任务方面取得了突破性成果。本文介绍了一种质量 - 多样性演员 - 评论家（QDAC）的离线演员 - 评论家深度强化学习算法，它利用价值函数评论家和继承特征评论家来学习高性能和多样化的行为。在这个框架中，演员使用受限优化来统一优化两个评论家，以 (1) 最大化回报，同时 (2) 执行多样的技能。与其他质量 - 多样性方法相比，QDAC 在六个具有挑战性的连续控制运动任务上实现了显著更高的性能和更多样化的行为。我们还证明了我们可以利用学到的技能在五个扰动环境中比其他基线更好地进行适应。最后，定性分析展示了一系列非凡的行为。

Abstract

A key aspect of intelligence is the ability to demonstrate a broad spectrum of behaviors for adapting to unexpected situations. Over the past decade, advancements in deep reinforcement learning have led to ground

intelligence deep reinforcement learning quality-diversity actor-critic continuous control tasks diverse behaviors

发现论文，激发创造

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

价值分解的多智能体演员 - 评论家模型

在多智能体强化学习中，QMIX 使用非负函数逼近器表示联合动作价值，并在 StarCraft II 微观管理任务中取得了迄今最好的性能。然而，我们的实验表明，在某些情况下，QMIX 与 A2C 不兼容。为了在培训效率和算法性能之间获得合理的折衷，我们将价值分解扩展到与 A2C 兼容的演员临界值，并提出了一种新的演员临界值框架，即价值分解演员临界值（VDACs）。我们在 StarCraft II 微观管理任务测试平台上评估 VDACs，并证明所提出的框架改进了其他演员临界值方法的中位性能。此外，我们使用一组消融实验来确定对 VDACs 的性能做出贡献的关键因素。

Jul, 2020

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022

Quality-Diversity 与深度强化学习之间的协同作用理解

研究提出了一个统一的模块化框架，名为通用 Actor-Critic Quality-Diversity Deep Reinforcement Learning，以探究深度强化学习中的洞察，并将其应用于 Quality-Diversity 算法，进而提出 PGA-ME (SAC) 和 PGA-ME（DroQ）算法以解决人性化难题，同时演示了境外评估对演员批评模型的必要性。

Mar, 2023

带有阶段演员的演员 - 评论家强化学习

强化学习中的政策梯度方法在解决连续最优控制问题方面具有很大潜力。本研究提出了一种名为 Phased Actor in Actor-Critic (PAAC) 的新方法，旨在改善政策梯度估计的质量，减少随机性变化，并提供稳定的系统动力学。PAAC 在 DeepMind Control Suite (DMC) 中的评估结果显示了其在学习成本、鲁棒性、学习速度和成功率方面显著的性能提升，通过与其他相关方法的比较，为这些政策梯度算法提供了统一视角。

Apr, 2024

分布式软 actor-critic 算法：用于解决价值估计误差的离策略强化学习

该论文提出了一种分布式软演员 - 评论家算法 (DSAC)，通过学习状态 - 动作回报的分布函数来适应性地调整 Q 值函数的更新步长，进而缓解 Q 值过高导致的策略性能下降。通过将返回分布函数嵌入最大熵 RL 中，开发了一种分布式软政策迭代框架 (DSPI)，并提出了一个名为 DSAC 的深度离线演员 - 评论家算法的变体，以解决梯度爆炸和梯度消失等问题，并在 MuJoCo 连续控制任务套件上取得了最先进的性能。

Jan, 2020

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

通过 Reset-Free QD 算法和动力学模型，在物理机器人上直接学习控制器，以提高样本效率和生成最佳存档，从而使物理四足机器人在两小时内学习到行为技能库。

Apr, 2023

强化学习中可微分多样性的梯度逼近

探讨在训练鲁棒性强的机器人智能体中，使用多样化的代理策略以提高质量多样性优化问题的效率。通过两种导数近似方法实现多样性质量优化算法，并使用四种机器人仿真测试其性能，揭示当前算法在需要近似梯度的领域中的局限性。

Feb, 2022

量子优势演员 - 评论家强化学习

本研究提出一种新颖的量子强化学习方法，将优势演员 - 评论家算法与变分量子电路结合，通过替代部分经典组件解决了强化学习可扩展性方面的问题，同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境，我们的结果表明，使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体，可以显著提高性能。结果进一步揭示了当前量子方法的局限性，指出了嘈杂中尺度量子计算机硬件约束的进一步研究，以扩展更大更复杂的控制任务的混合方法。

Jan, 2024