这篇综述论文研究了在大规模群体系统中进行可控分析和多智能体强化学习的关键问题和挑战,介绍了现有的相关研究领域和方法,并讨论了未来的应用前景和方向。
Sep, 2022
本文深入研究了结合 off-policy reinforcement learning 和 population-based optimization 两种算法的训练方法,在机器人运动任务中的实验结果表明 population data 的使用会影响训练稳定性并降低性能,作者进一步提出了双重回放缓冲设计来解决此问题。
May, 2023
本文介绍了一种自动化强化学习算法 —— 基于种群训练的方法,并提出了使用基于贝叶斯优化的信任域方法和使用代际方法在单次训练中联合学习架构和超参数的创新解决方案,通过在高度并行的 Brax 物理引擎中验证得到了良好的性能。
Jul, 2022
通过引入更灵活、更具体的超参数适应框架 Generalized Population-Based Training 和综合性的 Pairwise Learning 策略,我们的方法在自适应性和计算效率方面显著优于传统的 Population-Based Training,并且在一系列增强学习基准测试中持续优于传统的 PBT 和其贝叶斯优化变体。
Apr, 2024
通过引入基于 Population 的强化学习思想,由于其在最大化性能时尚未预定义特定的多样性,证明了该方法产生一组互补的策略,并在三个著名的 NP-hard 问题上获得最新的强化学习结果:旅行推销员问题 (TSP),分配式车辆路径规划问题 (CVRP) 和 01 背包问题 (KP)。在特定的 TSP 问题上,其超过先前的最先进技术,将最优性差距分为 5 个,同时缩短了推理时间超过一个数量级。
Oct, 2022
本文探究了利用深度强化学习机制使智能体集体行为呈现有序模式的过程,并通过仿真大规模掠食者和被掠食者的世界来验证自然规律是否同样适用于人工智能系统中,实验结果表明基于不同自身利益驱动的智能体群体行为呈现出类似于生态学中的 Lotka-Volterra 模型的有序模式,这种集体行为的出现可以由自组织理论解释。
Sep, 2017
我们提出了一种简单而有效的强化学习算法,通过使用进化算子在强化学习中引入大的有向学习步骤,并使用具有共同经验缓冲区的强化学习代理人种群进行训练,从而有效地搜索策略空间。
本论文提出了 Population-Based Bandits (PB2) 这一算法,采用概率模型来更高效地搜索超参数配置,从而在计算资源有限的情况下发现高性能的超参数配置。在一系列强化学习实验中,证明了 PB2 可以在适度的计算预算下实现高性能。
Feb, 2020
本文提出了 Population Based Training 算法,该算法通过优化神经网络模型和超参数的选择,以最大化模型性能,并自动发现超参数的调整进度表以及模型选择。该算法在深度强化学习领域得到了成功的应用。
Nov, 2017
本研究提出了一种进化人口课程学习模式 (EPC),以解决在多智能体游戏中训练大型人口的问题,采用进化方式解决利益不一致问题和保留每个阶段的多个智能体组以优化其适应性。并将 EPC 应用于 MADDPG 算法中,实验结果表明本方法在多智能体增长的情况下能够始终优于基准算法。
Mar, 2020