本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法,该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题,使用基于种群的进化算法来训练深度强化学习代理人,实验结果表明,该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。
May, 2018
综述了将强化学习应用于进化算法的研究,讨论了集成方法、应用领域以及未来研究方向。
Aug, 2023
这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法,涉及强化学习中的关键研究领域及未来方向,为研究者和实践者提供参考和资源。
Mar, 2023
進化強化學習 (ERL) 通過整合進化算法 (EAs) 和強化學習 (RL) 進行優化,展現了卓越的性能提升。本文綜述了 ERL 中多樣的研究分支,系統地總結了最近相關算法的發展,並確定了三個主要的研究方向:EA 輔助 RL 優化、RL 輔助 EA 優化以及 EA 和 RL 的協同優化。隨後,我們對每個研究方向進行了深入分析,組織了多個研究分支,闡明了每個分支旨在解決的問題以及 EA 和 RL 集成如何應對這些挑戰。最後,我們討論了不同研究方向中可能面臨的挑戰和未來的研究方向。
Jan, 2024
我们提出了一种简单而有效的强化学习算法,通过使用进化算子在强化学习中引入大的有向学习步骤,并使用具有共同经验缓冲区的强化学习代理人种群进行训练,从而有效地搜索策略空间。
May, 2023
本文通过分析 OpenAI-ES 进化策略和 Proximal Policy Optimization(PPO)强化学习算法之间的差异,探讨了两种方法在一般效果、应对稀疏奖励的能力、发现最小解决方案的倾向 / 容量、对奖励塑形的依赖性和应对环境条件变化的能力等方面的差异,并结合基准问题表现为代理进行实际检验,发现一些之前未被发现的质性差异和两种算法的相对弱点,并提出一些改进方法。结果表明,奖励函数的特征对 OpenAI-ES 和 PPO 以及其他强化学习算法的影响有很大差异,因此优化奖励函数对于算法的使用非常重要。
May, 2022
对含复杂控制问题的强化学习和进化策略这两种方法进行了并行化改进,同时在深度强化学习领域比较了进化方法和深度强化学习方法,结果显示两种方法没有一个持续的胜者。
Nov, 2017
本文提出了一种新的进化约束强化学习算法,它使用随机排序自适应平衡奖励和约束违规,并通过维护一组拉格朗日松弛系数与约束缓冲器限制政策行为。实验结果表明,我们的方法在机器人控制测试中表现出优异的性能,同时,消融分析显示引入随机排序和约束缓冲的好处。
Apr, 2023
本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning),它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来,利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现,甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。
Jun, 2023
本文根据应用场景分为三类环境,分析强化学习算法在不同环境下的可行性,提供算法基础的概述和算法之间的相似性和差异性的比较,帮助研究者和实践者选择最适合自己的算法。
Sep, 2022