演化策略作为可扩展替代强化学习的方案

Mar, 2017

演化策略作为可扩展替代强化学习的方案

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

Tim Salimans, Jonathan Ho, Xi Chen, Szymon Sidor, Ilya Sutskever

TL;DR使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。

Abstract

We explore the use of evolution strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based rl techniques such as Q-learning and Policy Gradients. Experiments on

evolution strategies black box optimization rl techniques mujoco atari

发现论文，激发创造

回归基础：用规范进化策略测试在 Atar 游戏中的表现

该研究发现，进化策略（ES）算法可以作为一种可替代强化学习（RL）的算法，对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能，并且即使是基本的 ES 算法也可以实现成功。研究还表明，ES 算法与传统 RL 算法有着非常不同的性能特征，将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。

Feb, 2018

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

用线性策略网络解决深度强化学习基准

该研究通过神经进化的方式使用演化策略（ES），优化神经网络的权重来进行直接策略搜索，结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略，相比深度强化学习方法，ES 实现效果与梯度下降算法相当，并且通过直接访问游戏的内存状态，在 Atari 游戏中胜过了 DQN。

Feb, 2024

使用离线排序提高进化强化学习的样本效率

本文提出了一种用于评估候选解的离线排序方法，以提高样本效率，在强化学习中使用增强型随机搜索算法（ARS）时，与原始 ARS 相比，我们的离线策略具有类似的运行时间，但只需要约 70% 的数据，并且胜过最近的 TR-ES。

Aug, 2022

重要性加权演化策略

本研究提出改进新型的进化策略算法 - 重要性加权进化策略（IW-ES），通过重要性采样技术来解决现有进化策略算法数据效率较低的问题，在保持原始方法的可扩展性的同时，可以在每个经验批次上执行多个更新，为高效生成强化学习策略算法提供了新思路。

Nov, 2018

多缓冲区通信引导的演化策略强化学习

本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning)，它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来，利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现，甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。

Jun, 2023

使用进化策略和混合方法进行不可微监督学习

该研究论文展示了演化策略在学习大型监督模型的非可微参数方面的优越性，尤其是当模型具有百万维参数时，该方法的竞争能力非常出色。这种方法允许瘦模型从第一步开始就可以训练，非常适合于大算力场景。

Jun, 2019

硬阈值遇上进化策略在强化学习中

本文研究了进化策略在处理现实世界问题中普遍存在的无关特征的限制，并提出了一种集成硬阈值化和自然进化策略的新方法 NESHT，通过严格的分析和实证测试，证明了 NESHT 在嘈杂的 Mujoco 和 Atari 任务等复杂决策问题中的潜力。

May, 2024

一种高效的异步方法用于整合进化和基于梯度的策略搜索

本研究提出了一种异步进化策略强化学习 (AES-RL) 算法，将进化策略和策略梯度结合，并引入异步更新的方法，能够在连续控制基准测试中表现出优异的性能和时间效率。

Dec, 2020

ES 不仅仅是传统有限差分近似器

本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数，这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比，这种方法不仅可以使搜索空间不同，也可以寻找不同属性的网络。

Dec, 2017