Lamarckian Platform:推动进化强化学习边界走向异步商业游戏
我们提出了一个框架 DARLEI,结合了进化算法和并行强化学习,用于高效训练和演化 UNIMAL 智能体的种群。我们的方法利用 Proximal Policy Optimization (PPO) 进行个体智能体的学习,并与基于锦标赛选择的生成式学习机制相结合,促进形态进化。通过建立在 Nvidia 的 Isaac Gym 上,DARLEI 利用 GPU 加速模拟,在仅使用单个工作站的情况下,实现了超过 20 倍的加速比,而之前的方法需要大规模的分布式 CPU 集群。我们系统地特征化了 DARLEI 在各种条件下的性能,揭示了影响进化形态多样性的因素。当前的结果显示世代间的多样性有限,我们希望将来能够扩展 DARLEI,以在更丰富的环境中包括不同形态之间的相互作用,并创建一个允许共同演化种群和研究其中新兴行为的平台。我们的源代码也公开在此 https URL。
Dec, 2023
我们提出了基于进化博弈理论考虑的两种多智能体强化学习算法的变体。 一个变体的有意简化使我们能够证明它与一类常微分方程系统的复制子 - 变异体动力学的关系,从而通过它的常微分方程对应项在各种环境中展示了该算法的收敛条件。相较于更复杂的算法,另一个更复杂的变体允许与 Q 学习算法进行比较。我们在一系列环境中通过实验将这两个变体与 WoLF-PHC 和频率调整的 Q 学习进行比较,展示了我们的变体在维度增加的情况下保持收敛性的实例与更复杂算法的对比。解析结果的可用性相对于纯经验案例研究提供了一定的可转移性,展示了在处理收敛性和可靠的推广问题时,动力系统视角对多智能体强化学习的普适性。
May, 2024
LEMONADE 是一种多目标架构搜索算法,利用进化算法和近似网络同构算子来解决神经网络搜索领域的资源浪费问题,实现了高性能、低资源消耗的自动化神经网络设计。
Apr, 2018
本研究探讨了拉马克系统在进化机器人技术中的整合,并与传统的达尔文模型在各种环境中进行比较。通过采用拉马克原理,在机器人继承学习特性的基础上,结合没有继承的达尔文学习,在动态环境下研究适应性。我们的研究在六种不同的环境设置中进行,证明了拉马克系统在适应性和效率方面优于达尔文系统,特别是在具有挑战性的条件下。我们的分析突出了控制器和形态进化与环境适应之间的相互作用的关键作用,父子相似性以及学习前后的新生儿和幸存者提供了对特性继承有效性的深入理解。我们的研究结果表明,拉马克原理可以显著推进自治系统设计,在复杂的实际应用中提供更具适应性和强大的机器人解决方案的潜力。同时,我们使用实际物理机器人验证了这些理论洞察力,填补了仿真和实际应用之间的鸿沟。
Mar, 2024
RLLTE 是一个长期演进、极其模块化和开源的强化学习(RL)研究和应用框架,它通过提供大量组件来加速算法开发和演化,并构建了一个完整且丰富的生态系统,包括模型训练、评估、部署、基准测试平台和大型语言模型(LLM)辅助驾驶器。RLLTE 有望为 RL 工程实践制定标准,并对产业和学术界产生高度刺激。
Sep, 2023
本文提出一种新的算法 Proximal Distilled Evolutionary Reinforcement Learning (PDERL),通过对深度神经网络进行基于学习的变异操作,弥补了简单遗传编码的缺陷,优于 Evolutionary Reinforcement Learning (ERL) 和两种现有的强化学习算法。
Jun, 2019
该研究提出了一种新方法,即利用少量的突变规则来动态演化循环神经网络的结构,其结果表明,这种方法可以在大多数情况下匹配或超过梯度下降方法的性能,同时使用数量级更少的参数,该方法有望在对网络紧凑性和自主设计至关重要的实际应用方面开辟新的途径。
Apr, 2023
本文介绍了一种协作设计框架,将交互进化和大型语言模型相结合,模拟典型的人类设计过程,并在三个远程人类设计师的游戏设计任务中对该框架进行了评估。
Feb, 2023