强化学习的进化算法

Jun, 2011

Evolutionary Algorithms for Reinforcement Learning

J. J. Grefenstette, D. E. Moriarty, A. C. Schultz

TL;DR本文针对强化学习问题，重点介绍了进化算法在该问题上的应用，以及替代策略表述、信誉分配方法和问题特定遗传算子等方面的思考，在总结代表性应用的同时呈现了进化方法在强化学习中的优势和劣势。

Abstract

There are two distinct approaches to solving reinforcement learning problems, namely, searching in value function space and searching in policy space. Temporal difference methods and evolutionary algorithms are w

reinforcement learning evolutionary algorithms policy representations credit assignment methods genetic operators

发现论文，激发创造

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

强化学习辅助的进化算法：调查与研究机会

综述了将强化学习应用于进化算法的研究，讨论了集成方法、应用领域以及未来研究方向。

Aug, 2023

进化强化学习：综述

这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法，涉及强化学习中的关键研究领域及未来方向，为研究者和实践者提供参考和资源。

Mar, 2023

演化算法与强化学习的桥梁：综述

進化強化學習 (ERL) 通過整合進化算法 (EAs) 和強化學習 (RL) 進行優化，展現了卓越的性能提升。本文綜述了 ERL 中多樣的研究分支，系統地總結了最近相關算法的發展，並確定了三個主要的研究方向：EA 輔助 RL 優化、RL 輔助 EA 優化以及 EA 和 RL 的協同優化。隨後，我們對每個研究方向進行了深入分析，組織了多個研究分支，闡明了每個分支旨在解決的問題以及 EA 和 RL 集成如何應對這些挑戰。最後，我們討論了不同研究方向中可能面臨的挑戰和未來的研究方向。

Jan, 2024

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

进化策略和强化学习方法在自主代理控制中的定性差异

本文通过分析 OpenAI-ES 进化策略和 Proximal Policy Optimization（PPO）强化学习算法之间的差异，探讨了两种方法在一般效果、应对稀疏奖励的能力、发现最小解决方案的倾向 / 容量、对奖励塑形的依赖性和应对环境条件变化的能力等方面的差异，并结合基准问题表现为代理进行实际检验，发现一些之前未被发现的质性差异和两种算法的相对弱点，并提出一些改进方法。结果表明，奖励函数的特征对 OpenAI-ES 和 PPO 以及其他强化学习算法的影响有很大差异，因此优化奖励函数对于算法的使用非常重要。

May, 2022

深度强化学习和进化算法在连续控制中的比较

对含复杂控制问题的强化学习和进化策略这两种方法进行了并行化改进，同时在深度强化学习领域比较了进化方法和深度强化学习方法，结果显示两种方法没有一个持续的胜者。

Nov, 2017

演化约束强化学习策略

本文提出了一种新的进化约束强化学习算法，它使用随机排序自适应平衡奖励和约束违规，并通过维护一组拉格朗日松弛系数与约束缓冲器限制政策行为。实验结果表明，我们的方法在机器人控制测试中表现出优异的性能，同时，消融分析显示引入随机排序和约束缓冲的好处。

Apr, 2023

多缓冲区通信引导的演化策略强化学习

本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning)，它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来，利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现，甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。

Jun, 2023

强化学习算法概述与分类

本文根据应用场景分为三类环境，分析强化学习算法在不同环境下的可行性，提供算法基础的概述和算法之间的相似性和差异性的比较，帮助研究者和实践者选择最适合自己的算法。

Sep, 2022