M$^3$RL: 意识感知的多智能体管理强化学习
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本文提出了一种新的多智能体强化学习方法,该方法将合作任务分解与学习奖励机器相结合,以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质,并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习,然后用于指导每个智能体的行为,从而减少了合作多智能体问题的复杂性,更有效的学习。结果表明,我们的方法是未来 MARL 研究的一个有前景的方向,特别是在具有大状态空间和多个智能体的复杂环境中。
Mar, 2023
该文章介绍了多智能体强化学习研究的一个新挑战 ——MARLO 竞赛,它在多个 3D 游戏中提出了跨游戏和对手类型学习的普适智能代理概念,并建议作为人工智能通用智能方向的一个里程碑挑战。
Jan, 2019
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本研究提出一种基于互助的多智能体强化学习算法 (MH-MARL),通过利用预期动作模块来促进代理之间的相互帮助,以提高在合作任务中的性能表现。通过实验结果表明,MH-MARL 在成功率和累积奖励方面都提高了 MARL 的性能。
Feb, 2023
本文介绍了自适应多智能体强化学习 (Self-paced MARL),它可以根据任务的难度自动优化智能体数量,实验结果显示该方法在智能体数量对任务难度有足够影响时可以提高任务表现。
May, 2022
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022
该论文介绍了一种基于多智能体强化学习技术的意图管理方法,通过优化重要 KPI 并协调各个闭环实现多个意图同时满足,实验结果表明该方法在实现意图和优化 KPI 方面表现良好。
Aug, 2022