CEM-RL: 将进化和梯度方法结合应用于策略搜索

ICLROct, 2018

CEM-RL: 将进化和梯度方法结合应用于策略搜索

CEM-RL: Combining evolutionary and gradient-based methods for policy search

Aloïs Pourchot, Olivier Sigaud

TL;DR本文提出了一种新的方法 CEM-RL，将深度神经进化算法和深度强化学习算法相结合，选取 Twin Delayed Deep Deterministic policy gradient 和交叉熵方法，并在深度 RL 的一组基准测试中进行评估，结果表明 CEM-RL 在性能和样本效率之间取得了令人满意的平衡。

Abstract

deep neuroevolution and deep reinforcement learning (deep RL) algorithms are two popular approaches to policy search. The former is widely

deep neuroevolution deep reinforcement learning policy search cross-entropy method twin delayed deep deterministic policy gradient

发现论文，激发创造

协作进化强化学习

本研究介绍了一种名为 CERL 的可扩展框架，其中包含一组策略，这些策略同时探索和利用解决方案空间的不同区域，并使用神经进化将这个过程绑定在一起，从而生成一个超越任何个体学习器的单个新兴学习器。实验表明，这个新兴学习器在连续控制基准测试中优于其复合学习器，并保持整体更高的采样效率。

May, 2019

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

结合演化和深度强化学习的策略搜索：一项调查

本文对深度神经进化和深度强化学习领域组合机制的文献进行梳理和总结调查，提供了一个基于现有文献的研究框架，不着重于实验结果，共涵盖了 45 种算法，旨在促进该领域的发展并加深人们对各方法之间关系的理解，从而推进新型机制的发展。

Mar, 2022

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

多缓冲区通信引导的演化策略强化学习

本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning)，它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来，利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现，甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。

Jun, 2023

近端蒸馏进化强化学习

本文提出一种新的算法 Proximal Distilled Evolutionary Reinforcement Learning (PDERL)，通过对深度神经网络进行基于学习的变异操作，弥补了简单遗传编码的缺陷，优于 Evolutionary Reinforcement Learning (ERL) 和两种现有的强化学习算法。

Jun, 2019

GEP-PG：深度强化学习算法中探索和开发的解耦

本文提出了一种将 Goal Exploration Process 和 DDPG 算法结合的 GEP-PG 算法，该算法在涉及到探索的环境中比 DDPG 算法表现更佳，而在采用梯度下降优化策略时仍然保持高效。在低维迷惑奖励问题和更大的 Half-Cheetah 基准测试中，我们研究了这些组件及其组合的学习性能。

Feb, 2018

实时规划的高样本利用率交叉熵方法

本文提出了改进的 CEM 算法，包括时间相关动作和内存等创新性的增加，可以在高维控制问题中使用，减少了采样次数并提高了 1.2-10 倍的性能表现。

Aug, 2020

一种高效的异步方法用于整合进化和基于梯度的策略搜索

本研究提出了一种异步进化策略强化学习 (AES-RL) 算法，将进化策略和策略梯度结合，并引入异步更新的方法，能够在连续控制基准测试中表现出优异的性能和时间效率。

Dec, 2020

基于交叉熵引导策略的连续动作 Q 学习

本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合，以提高其在连续值动作域中的运行速度和稳定性。

Mar, 2019