DARLEI：具有进化智能的深度加速强化学习

Dec, 2023

DARLEI：具有进化智能的深度加速强化学习

DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary Intelligence

Saeejith Nair, Mohammad Javad Shafiee, Alexander Wong

TL;DR我们提出了一个框架 DARLEI，结合了进化算法和并行强化学习，用于高效训练和演化 UNIMAL 智能体的种群。我们的方法利用 Proximal Policy Optimization (PPO) 进行个体智能体的学习，并与基于锦标赛选择的生成式学习机制相结合，促进形态进化。通过建立在 Nvidia 的 Isaac Gym 上，DARLEI 利用 GPU 加速模拟，在仅使用单个工作站的情况下，实现了超过 20 倍的加速比，而之前的方法需要大规模的分布式 CPU 集群。我们系统地特征化了 DARLEI 在各种条件下的性能，揭示了影响进化形态多样性的因素。当前的结果显示世代间的多样性有限，我们希望将来能够扩展 DARLEI，以在更丰富的环境中包括不同形态之间的相互作用，并创建一个允许共同演化种群和研究其中新兴行为的平台。我们的源代码也公开在此 https URL。

Abstract

We present darlei, a framework that combines evolutionary algorithms with parallelized reinforcement learning for efficiently training and

darlei evolutionary algorithms parallelized reinforcement learning unimal agents morphological evolution

发现论文，激发创造

近端蒸馏进化强化学习

本文提出一种新的算法 Proximal Distilled Evolutionary Reinforcement Learning (PDERL)，通过对深度神经网络进行基于学习的变异操作，弥补了简单遗传编码的缺陷，优于 Evolutionary Reinforcement Learning (ERL) 和两种现有的强化学习算法。

Jun, 2019

约束进化体现神经智能的共同设计

通过深度强化学习和进化算法以及用户控制相结合的方法，介绍了一种创新的协同设计方法，以形态属性和运动为自主移动代理提供良好的设计和行为。

May, 2022

协作进化强化学习

本研究介绍了一种名为 CERL 的可扩展框架，其中包含一组策略，这些策略同时探索和利用解决方案空间的不同区域，并使用神经进化将这个过程绑定在一起，从而生成一个超越任何个体学习器的单个新兴学习器。实验表明，这个新兴学习器在连续控制基准测试中优于其复合学习器，并保持整体更高的采样效率。

May, 2019

Lamarckian Platform：推动进化强化学习边界走向异步商业游戏

本文介绍了 Lamarckian 平台，该平台支持分布式计算和异步进化强化学习，并在 Google 足球游戏和乒乓游戏上进行了基准测试，表明 Lamarckian 平台在采样效率和训练速度方面具有优势，同时提供了两个应用示例：生成行为多样化的游戏 AI 和测试异步商业游戏的平衡性。

Sep, 2022

演化引导的强化学习策略梯度

本文介绍了一种基于人工进化算法和深度强化学习相结合的进化增强学习算法，该算法克服了传统深度强化学习算法中时序资格分配、探索效率和收敛性极度敏感的问题，使用基于种群的进化算法来训练深度强化学习代理人，实验结果表明，该方法在多种连续控制基准测试中显著优于传统深度强化学习和进化算法方法。

May, 2018

演化强化学习的合作协同进化

本文提出了一种新颖的合作共进化强化学习（CoERL）算法，旨在解决高维度神经网络优化效率问题，通过将策略优化问题分解为多个子问题并进化各个子问题的神经网络种群，使用部分梯度来更新策略，以提高采样效率。在六个基准运动任务上的实验表明，CoERL 优于七种最先进的算法和基准模型，并通过消融研究验证了 CoERL 核心要素的独特贡献。

Apr, 2024

用简单的进化思想辅助基于梯度的强化学习

我们提出了一种简单而有效的强化学习算法，通过使用进化算子在强化学习中引入大的有向学习步骤，并使用具有共同经验缓冲区的强化学习代理人种群进行训练，从而有效地搜索策略空间。

May, 2023

深度强化学习代理的进化策划课程学习

本文提出了一个针对深度强化学习代理的新的训练循环，采用进化生成器进行进化过程生成来构建训练课程，结果表明相较于没有导向的输入，进化课程的训练优化和泛化能力均有所提高。

Jan, 2019

百万智能体强化学习的人工智能种群动态研究

本文探究了利用深度强化学习机制使智能体集体行为呈现有序模式的过程，并通过仿真大规模掠食者和被掠食者的世界来验证自然规律是否同样适用于人工智能系统中，实验结果表明基于不同自身利益驱动的智能体群体行为呈现出类似于生态学中的 Lotka-Volterra 模型的有序模式，这种集体行为的出现可以由自组织理论解释。

Sep, 2017

对抗生成神经进化控制行为模仿

本研究探索深度神经进化算法是否可用于行为模仿，通过引入一个简单的对抗生成框架，将深度递归网络进化到可以在 8 个 OpenAI Gym 状态控制任务上模仿最先进的预训练代理的能力。实验结果表明，神经进化在生成行为模拟代理方面具有很大的潜力，可以使其在准确度和泛化性方面更具可操作性。

Apr, 2023