用线性策略网络解决深度强化学习基准

Feb, 2024

用线性策略网络解决深度强化学习基准

Solving Deep Reinforcement Learning Benchmarks with Linear Policy Networks

Annie Wong, Jacob de Nobel, Thomas Bäck, Aske Plaat, Anna V. Kononova

TL;DR该研究通过神经进化的方式使用演化策略（ES），优化神经网络的权重来进行直接策略搜索，结果表明 ES 能够在许多强化学习基准任务中找到有效的线性策略，相比深度强化学习方法，ES 实现效果与梯度下降算法相当，并且通过直接访问游戏的内存状态，在 Atari 游戏中胜过了 DQN。

Abstract

Although deep reinforcement learning (DRL) methods can learn effective policies for challenging problems such as Atari games and robotics tasks, algorithms are complex and training times are often long. This study investigates how →

deep reinforcement learning evolution strategies neuroevolution linear policies memory state

发现论文，激发创造

演化策略作为可扩展替代强化学习的方案

使用黑盒优化算法 —— 进化策略，替代流行的基于 MDP 的 RL 技术，通过 MuJoCo 和 Atari 上的实验表明，ES 是一种可行的解决策略，随着可用 CPU 数量的增加而呈线性规模，同时 ES 具有不变性、容差性以及无需强化学习概念的优越性。

Mar, 2017

通过一组寻求新颖性智能体的群体改进演化策略在深度强化学习中的探索

本文结合高效的进化策略算法（ES）、直接探索策略和进化智能技术，提出了一种新型快速可扩展的在深度强化学习任务中进行探索的算法，通过在 Atari 游戏和机器人学习领域的实验验证，提高了 ES 在稀疏或陷阱型的深度 RL 任务中的表现。

Dec, 2017

回归基础：用规范进化策略测试在 Atar 游戏中的表现

该研究发现，进化策略（ES）算法可以作为一种可替代强化学习（RL）的算法，对于诸如 Atari 游戏和 MuJoCo 人型运动的深度 RL 问题可以实现相同或更好的性能，并且即使是基本的 ES 算法也可以实现成功。研究还表明，ES 算法与传统 RL 算法有着非常不同的性能特征，将它们的优势与传统 RL 算法的优势相结合可能会推动先进技术的发展。

Feb, 2018

ES 不仅仅是传统有限差分近似器

本研究说明了一种基于进化策略的深度强化学习方法可以通过优化全部群体的平均奖励来寻找具有鲁棒性的神经网络参数，这种鲁棒性在不同领域的应用中得到了证实。与传统的有限差分法相比，这种方法不仅可以使搜索空间不同，也可以寻找不同属性的网络。

Dec, 2017

一种高效的异步方法用于整合进化和基于梯度的策略搜索

本研究提出了一种异步进化策略强化学习 (AES-RL) 算法，将进化策略和策略梯度结合，并引入异步更新的方法，能够在连续控制基准测试中表现出优异的性能和时间效率。

Dec, 2020

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

深度神经进化：遗传算法是训练深度神经网络进行强化学习的竞争性替代方案

我们证明了遗传算法可以在深度人工神经网络上实现良好的性能表现，即使没有梯度信息支持，我们使用深度遗传算法结合新颖搜索技巧在具有挑战性的深度强化学习问题上获得了成功，并且速度比其他算法更快，能够实现高效编码。

Dec, 2017

高效的符号策略学习与可微分符号表达

通过提出一种名为 Efficient Symbolic Policy Learning（ESPL）的高效梯度学习方法，在深度强化学习中实现从头开始学习符号策略，并扩展至元强化学习，生成出性能更高、效率更高且具有潜力解释的符号策略。

Nov, 2023

使用离线排序提高进化强化学习的样本效率

本文提出了一种用于评估候选解的离线排序方法，以提高样本效率，在强化学习中使用增强型随机搜索算法（ARS）时，与原始 ARS 相比，我们的离线策略具有类似的运行时间，但只需要约 70% 的数据，并且胜过最近的 TR-ES。

Aug, 2022