本文通过分析 OpenAI-ES 进化策略和 Proximal Policy Optimization(PPO)强化学习算法之间的差异,探讨了两种方法在一般效果、应对稀疏奖励的能力、发现最小解决方案的倾向 / 容量、对奖励塑形的依赖性和应对环境条件变化的能力等方面的差异,并结合基准问题表现为代理进行实际检验,发现一些之前未被发现的质性差异和两种算法的相对弱点,并提出一些改进方法。结果表明,奖励函数的特征对 OpenAI-ES 和 PPO 以及其他强化学习算法的影响有很大差异,因此优化奖励函数对于算法的使用非常重要。
May, 2022
本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法,该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题,使用基于种群的进化算法来训练深度强化学习代理人,实验结果表明,该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。
May, 2018
本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning),它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来,利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现,甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。
Jun, 2023
本文针对强化学习问题,重点介绍了进化算法在该问题上的应用,以及替代策略表述、信誉分配方法和问题特定遗传算子等方面的思考,在总结代表性应用的同时呈现了进化方法在强化学习中的优势和劣势。
Jun, 2011
本文对深度神经进化和深度强化学习领域组合机制的文献进行梳理和总结调查,提供了一个基于现有文献的研究框架,不着重于实验结果,共涵盖了 45 种算法,旨在促进该领域的发展并加深人们对各方法之间关系的理解,从而推进新型机制的发展。
Mar, 2022
这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法,涉及强化学习中的关键研究领域及未来方向,为研究者和实践者提供参考和资源。
Mar, 2023
本文综述了连续动作策略搜索的研究现状,包括深度强化学习算法、基于进化算法的竞争者、贝叶斯优化和定向探索方法等,提供了一种统一的视角,并探讨了各种方法的样本效率特性。
Mar, 2018
该研究比较了强化学习算法和非机器学习方法在预备所需量子态问题中的效用,得出了深度 Q-learning 和策略梯度算法在此问题中效果最佳的结论。
Feb, 2019
研究人员结合深度学习和强化学习在连续控制领域缺失常用基准问题下设计并发布了一套基准问题和参考实现,经过系统评估发现一系列新的结果。
Apr, 2016
進化強化學習 (ERL) 通過整合進化算法 (EAs) 和強化學習 (RL) 進行優化,展現了卓越的性能提升。本文綜述了 ERL 中多樣的研究分支,系統地總結了最近相關算法的發展,並確定了三個主要的研究方向:EA 輔助 RL 優化、RL 輔助 EA 優化以及 EA 和 RL 的協同優化。隨後,我們對每個研究方向進行了深入分析,組織了多個研究分支,闡明了每個分支旨在解決的問題以及 EA 和 RL 集成如何應對這些挑戰。最後,我們討論了不同研究方向中可能面臨的挑戰和未來的研究方向。
Jan, 2024