协作进化强化学习

ICMLMay, 2019

Collaborative Evolutionary Reinforcement Learning

Shauharda Khadka, Somdeb Majumdar, Tarek Nassar, Zach Dwiel, Evren Tumer...

TL;DR本研究介绍了一种名为 CERL 的可扩展框架，其中包含一组策略，这些策略同时探索和利用解决方案空间的不同区域，并使用神经进化将这个过程绑定在一起，从而生成一个超越任何个体学习器的单个新兴学习器。实验表明，这个新兴学习器在连续控制基准测试中优于其复合学习器，并保持整体更高的采样效率。

Abstract

deep reinforcement learning algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically struggle with achieving effective exploration and are extremely sens

deep reinforcement learning exploration hyperparameters collaborative evolutionary reinforcement learning neuroevolution

发现论文，激发创造

演化强化学习的合作协同进化

本文提出了一种新颖的合作共进化强化学习（CoERL）算法，旨在解决高维度神经网络优化效率问题，通过将策略优化问题分解为多个子问题并进化各个子问题的神经网络种群，使用部分梯度来更新策略，以提高采样效率。在六个基准运动任务上的实验表明，CoERL 优于七种最先进的算法和基准模型，并通过消融研究验证了 CoERL 核心要素的独特贡献。

Apr, 2024

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

演化约束强化学习策略

本文提出了一种新的进化约束强化学习算法，它使用随机排序自适应平衡奖励和约束违规，并通过维护一组拉格朗日松弛系数与约束缓冲器限制政策行为。实验结果表明，我们的方法在机器人控制测试中表现出优异的性能，同时，消融分析显示引入随机排序和约束缓冲的好处。

Apr, 2023

CEM-RL: 将进化和梯度方法结合应用于策略搜索

本文提出了一种新的方法 CEM-RL，将深度神经进化算法和深度强化学习算法相结合，选取 Twin Delayed Deep Deterministic policy gradient 和交叉熵方法，并在深度 RL 的一组基准测试中进行评估，结果表明 CEM-RL 在性能和样本效率之间取得了令人满意的平衡。

Oct, 2018

进化强化学习：综述

这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法，涉及强化学习中的关键研究领域及未来方向，为研究者和实践者提供参考和资源。

Mar, 2023

近端蒸馏进化强化学习

本文提出一种新的算法 Proximal Distilled Evolutionary Reinforcement Learning (PDERL)，通过对深度神经网络进行基于学习的变异操作，弥补了简单遗传编码的缺陷，优于 Evolutionary Reinforcement Learning (ERL) 和两种现有的强化学习算法。

Jun, 2019

合作式深度强化学习

本文提出了一种协作深度强化学习框架，其中包括深度知识蒸馏方法、异构学习任务深度对齐网络、有效的协同 A3C 算法等，用于在不同学习任务中执行自适应知识转移

Feb, 2017

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

演化算法与强化学习的桥梁：综述

進化強化學習 (ERL) 通過整合進化算法 (EAs) 和強化學習 (RL) 進行優化，展現了卓越的性能提升。本文綜述了 ERL 中多樣的研究分支，系統地總結了最近相關算法的發展，並確定了三個主要的研究方向：EA 輔助 RL 優化、RL 輔助 EA 優化以及 EA 和 RL 的協同優化。隨後，我們對每個研究方向進行了深入分析，組織了多個研究分支，闡明了每個分支旨在解決的問題以及 EA 和 RL 集成如何應對這些挑戰。最後，我們討論了不同研究方向中可能面臨的挑戰和未來的研究方向。

Jan, 2024

多缓冲区通信引导的演化策略强化学习

本文提出了一种新的进化强化学习模型 (Evolutionary Reinforcement Learning)，它将一种名为 Evolutionary Strategies 的进化算法与离线策略深度强化学习算法 TD3 结合起来，利用多缓冲区系统而不是单一共享重放缓冲区进行搜索。该算法的具体实现在 MuJoCo 控制任务上实现了有竞争力的表现，甚至在 3 个测试环境中胜过了著名的 CEM-RL 最先进的状态。

Jun, 2023