一种高效的异步方法用于整合进化和基于梯度的策略搜索

Dec, 2020

一种高效的异步方法用于整合进化和基于梯度的策略搜索

An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search

Kyunghyun Lee, Byeong-Uk Lee, Ukcheol Shin, In So Kweon

TL;DR本研究提出了一种异步进化策略强化学习 (AES-RL) 算法，将进化策略和策略梯度结合，并引入异步更新的方法，能够在连续控制基准测试中表现出优异的性能和时间效率。

Abstract

deep reinforcement learning (DRL) algorithms and evolution strategies (ES) have been applied to various tasks, showing excellent performances. These have the opposite properties, with DRL having good sample effic

deep reinforcement learning evolution strategies asynchronous update scheme parallel efficiency continuous control benchmark

发现论文，激发创造

用线性策略网络解决深度强化学习基准

该研究通过神经进化的方式使用演化策略（ES），优化神经网络的权重来进行直接策略搜索，结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略，相比深度强化学习方法，ES 实现效果与梯度下降算法相当，并且通过直接访问游戏的内存状态，在 Atari 游戏中胜过了 DQN。

Feb, 2024

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

演化策略作为可扩展替代强化学习的方案

使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。

Mar, 2017

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

使用离线排序提高进化强化学习的样本效率

本文提出了一种用于评估候选解的离线排序方法，以提高样本效率，在强化学习中使用增强型随机搜索算法（ARS）时，与原始 ARS 相比，我们的离线策略具有类似的运行时间，但只需要约 70% 的数据，并且胜过最近的 TR-ES。

Aug, 2022

重要性加权演化策略

本研究提出改进新型的进化策略算法 - 重要性加权进化策略（IW-ES），通过重要性采样技术来解决现有进化策略算法数据效率较低的问题，在保持原始方法的可扩展性的同时，可以在每个经验批次上执行多个更新，为高效生成强化学习策略算法提供了新思路。

Nov, 2018

回归基础：用规范进化策略测试在 Atar 游戏中的表现

该研究发现，进化策略（ES）算法可以作为一种可替代强化学习（RL）的算法，对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能，并且即使是基本的 ES 算法也可以实现成功。研究还表明，ES 算法与传统 RL 算法有着非常不同的性能特征，将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。

Feb, 2018

深度强化学习的异步方法

提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架，演示了四种标准强化学习算法的异步变体，并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法，即 actor-critic 的异步变体，在 Atari 领域超越了现有的最佳表现，并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外，还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。

Feb, 2016

多缓冲区通信引导的演化策略强化学习

本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning)，它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来，利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现，甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。

Jun, 2023