回归基础：用规范进化策略测试在 Atar 游戏中的表现

Feb, 2018

回归基础：用规范进化策略测试在 Atar 游戏中的表现

Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari

Patryk Chrabaszcz, Ilya Loshchilov, Frank Hutter

TL;DR该研究发现，进化策略（ES）算法可以作为一种可替代强化学习（RL）的算法，对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能，并且即使是基本的 ES 算法也可以实现成功。研究还表明，ES 算法与传统 RL 算法有着非常不同的性能特征，将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。

Abstract

evolution strategies (ES) have recently been demonstrated to be a viable alternative to reinforcement learning (RL) algorithms on a set of challenging →

evolution strategies reinforcement learning deep rl problems natural evolution strategies es algorithms

发现论文，激发创造

演化策略作为可扩展替代强化学习的方案

使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。

Mar, 2017

用线性策略网络解决深度强化学习基准

该研究通过神经进化的方式使用演化策略（ES），优化神经网络的权重来进行直接策略搜索，结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略，相比深度强化学习方法，ES 实现效果与梯度下降算法相当，并且通过直接访问游戏的内存状态，在 Atari 游戏中胜过了 DQN。

Feb, 2024

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

硬阈值遇上进化策略在强化学习中

本文研究了进化策略在处理现实世界问题中普遍存在的无关特征的限制，并提出了一种集成硬阈值化和自然进化策略的新方法 NESHT，通过严格的分析和实证测试，证明了 NESHT 在嘈杂的 Mujoco 和 Atari 任务等复杂决策问题中的潜力。

May, 2024

进化策略和强化学习方法在自主代理控制中的定性差异

本文通过分析 OpenAI-ES 进化策略和 Proximal Policy Optimization（PPO）强化学习算法之间的差异，探讨了两种方法在一般效果、应对稀疏奖励的能力、发现最小解决方案的倾向 / 容量、对奖励塑形的依赖性和应对环境条件变化的能力等方面的差异，并结合基准问题表现为代理进行实际检验，发现一些之前未被发现的质性差异和两种算法的相对弱点，并提出一些改进方法。结果表明，奖励函数的特征对 OpenAI-ES 和 PPO 以及其他强化学习算法的影响有很大差异，因此优化奖励函数对于算法的使用非常重要。

May, 2022

使用离线排序提高进化强化学习的样本效率

本文提出了一种用于评估候选解的离线排序方法，以提高样本效率，在强化学习中使用增强型随机搜索算法（ARS）时，与原始 ARS 相比，我们的离线策略具有类似的运行时间，但只需要约 70% 的数据，并且胜过最近的 TR-ES。

Aug, 2022

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

ES 不仅仅是传统有限差分近似器

本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数，这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比，这种方法不仅可以使搜索空间不同，也可以寻找不同属性的网络。

Dec, 2017

将进化搜索与行为克隆相结合，用于程序生成内容

本文提出了一种将进化搜索和强化学习相结合的框架，通过行为克隆将演化的关卡序列提炼为策略，以生成更快速的关卡，我们将其应用于迷宫游戏和超级马里奥兄弟中，结果表明该方法能够显著缩短关卡生成的时间。

Jul, 2022

自然进化策略

本文提出了一种名为自然进化策略（NES）的算法，它是一种比传统进化算法更为规范的黑盒优化方法。NES 在候选解集上维护一个参数化的分布，使用自然梯度来更新分布的参数，以求解更高预期的适应度值。本文介绍了一系列技术，解决了关于收敛、稳健性、样本复杂度、计算复杂度和对超参数的敏感性等问题。对于全局优化和高维空间搜索，从通用的多元正态分布到重尾和可分布的分布，本文探讨了 NES 系列的多种实现。实验结果显示，NES 表现良好，达到了各种标准基准测试的最佳性能。

Jun, 2011