深度强化学习和进化算法在连续控制中的比较

NIPSNov, 2017

深度强化学习和进化算法在连续控制中的比较

Comparing Deep Reinforcement Learning and Evolutionary Methods in Continuous Control

Shangtong Zhang, Osmar R. Zaiane

TL;DR对含复杂控制问题的强化学习和进化策略这两种方法进行了并行化改进，同时在深度强化学习领域比较了进化方法和深度强化学习方法，结果显示两种方法没有一个持续的胜者。

Abstract

reinforcement learning and the evolutionary strategy are two major approaches in addressing complicated control problems. Both are strong contenders and have their own devotee communities. Both groups have been v

reinforcement learning evolutionary strategy deep reinforcement learning proximal policy optimization deterministic policy gradient

发现论文，激发创造

进化策略和强化学习方法在自主代理控制中的定性差异

本文通过分析 OpenAI-ES 进化策略和 Proximal Policy Optimization（PPO）强化学习算法之间的差异，探讨了两种方法在一般效果、应对稀疏奖励的能力、发现最小解决方案的倾向 / 容量、对奖励塑形的依赖性和应对环境条件变化的能力等方面的差异，并结合基准问题表现为代理进行实际检验，发现一些之前未被发现的质性差异和两种算法的相对弱点，并提出一些改进方法。结果表明，奖励函数的特征对 OpenAI-ES 和 PPO 以及其他强化学习算法的影响有很大差异，因此优化奖励函数对于算法的使用非常重要。

May, 2022

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

多缓冲区通信引导的演化策略强化学习

本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning)，它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来，利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现，甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。

Jun, 2023

强化学习的进化算法

本文针对强化学习问题，重点介绍了进化算法在该问题上的应用，以及替代策略表述、信誉分配方法和问题特定遗传算子等方面的思考，在总结代表性应用的同时呈现了进化方法在强化学习中的优势和劣势。

Jun, 2011

结合演化和深度强化学习的策略搜索：一项调查

本文对深度神经进化和深度强化学习领域组合机制的文献进行梳理和总结调查，提供了一个基于现有文献的研究框架，不着重于实验结果，共涵盖了 45 种算法，旨在促进该领域的发展并加深人们对各方法之间关系的理解，从而推进新型机制的发展。

Mar, 2022

进化强化学习：综述

这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法，涉及强化学习中的关键研究领域及未来方向，为研究者和实践者提供参考和资源。

Mar, 2023

连续动作领域的策略搜索：概述

本文综述了连续动作策略搜索的研究现状，包括深度强化学习算法、基于进化算法的竞争者、贝叶斯优化和定向探索方法等，提供了一种统一的视角，并探讨了各种方法的样本效率特性。

Mar, 2018

强化学习在量子控制中的优势何时显现？对态制备的比较研究

该研究比较了强化学习算法和非机器学习方法在预备所需量子态问题中的效用，得出了深度 Q-learning 和策略梯度算法在此问题中效果最佳的结论。

Feb, 2019

深度强化学习在连续控制中的基准测试

研究人员结合深度学习和强化学习在连续控制领域缺失常用基准问题下设计并发布了一套基准问题和参考实现，经过系统评估发现一系列新的结果。

Apr, 2016

演化算法与强化学习的桥梁：综述

進化強化學習 (ERL) 通過整合進化算法 (EAs) 和強化學習 (RL) 進行優化，展現了卓越的性能提升。本文綜述了 ERL 中多樣的研究分支，系統地總結了最近相關算法的發展，並確定了三個主要的研究方向：EA 輔助 RL 優化、RL 輔助 EA 優化以及 EA 和 RL 的協同優化。隨後，我們對每個研究方向進行了深入分析，組織了多個研究分支，闡明了每個分支旨在解決的問題以及 EA 和 RL 集成如何應對這些挑戰。最後，我們討論了不同研究方向中可能面臨的挑戰和未來的研究方向。

Jan, 2024