潜在互动 A2C 用于开放多智能体系统中改进强化学习
本文提出了一种可完全扩展和去中心化的多智能体 A2C 算法,以提高城市交通网络中的自适应交通信号控制的可观测性和减少学习难度,并在大型合成交通网格和摩纳哥城的大型实际交通网络下,通过模拟高峰流量动态,并将其与独立 A2C 和独立 Q-learning 算法进行比较,结果表明其优化性、鲁棒性和样本效率优于其他最先进的去中心化 MARL 算法。
Mar, 2019
本文提出了一个名为 MA2CL 的新方法,通过使用掩码代理观察在潜在空间中重建模型,并使用对比学习对模型进行训练,鼓励学习表示是同时具有时间性和代理级别预测性的,以提高多代理强化学习的效率和样本效率,扩大了环境中代理级别的上下文信息的应用。
Jun, 2023
本文探讨了如何将演员 - 评论家(Actor-Critic)方法在深度强化学习中,尤其是异步优势演员评论家(A3C)与代理建模相结合。我们提出了两种体系结构来执行代理建模,旨在学习其他代理的策略作为辅助任务。在协作和竞争领域的实验结果表明,所提出的体系结构稳定了学习,并在学习期望报酬最佳响应时优于标准 A3C 体系结构。
Jul, 2019
本研究主要探讨无线路由方案的优化,特别关注于集成接入回程(IAB)网络,旨在通过采取多智能体强化学习和马尔可夫决策过程等方法,最大化分组到达比率同时最小化网络延迟,并提升网络效率。在本研究中,我们提出了一种称为关系型优势演员评论家(Relational A2C)的算法,并对其进行了三种不同的训练范式。研究结果表明,相较于其他强化学习算法,该算法具有更好的性能和更低的个体自私行为,为 IAB 网络的路由策略优化提供了新的思路。
May, 2023
本文介绍了一种新的带有解释性的 Actor-Critic 强化学习模型 A2CR,通过预定义和分类行为的目的,A2CR 自动生成了更全面、可解释的决策模式,从而提供了一系列功能,如基于目的的关键性、早期故障检测和模型监督,以促进负责任和可信任的强化学习。通过在动作丰富的 Super Mario Bros 环境中的评估,发现随着强化学习算法的探索程度加深,Reasoner 预测的标签比例在 “Breakout” 中降低,而在 “Hovering” 中增加。此外,基于目的的关键性更具针对性和可理解性。
Sep, 2023
本文提出了一种可伸缩的演员 - 评论家(SAC)方法,可以解决具有本地依赖结构的网络多智能体强化学习(MARL)问题,其复杂度与本地邻域的状态 - 动作空间大小相比,而不是整个网络的规模,其效果取决于智能体在图中的距离,通过利用指数衰减性质,可以获得性能接近最优的局部策略。
Jun, 2020
介绍了一种结合了 model-free 和 model-based 特点的 deep reinforcement learning 方法 ——Imagination-Augmented Agents(I2As),相比于现有的 model-based 基于规则的 reinforcement learning 和 planning 方法,I2As 通过学习来解释环境模型的预测,以任意方式构建隐式计划,使用预测作为深度策略网络中的额外上下文,相比于基线算法,在数据效率,性能和鲁棒性方面获得了改进。
Jul, 2017
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策,而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人,无人驾驶车辆,移动传感器网络和智能电网的控制和操作中具有广泛应用。
Dec, 2019
本文提出了两种具有函数逼近的分布式学习算法来解决网络智能体的多智能体强化学习问题,这两个算法均为完全去中心化的 Actor-Critic 算法,能够应用于大规模多智能体学习问题中,并在模拟实验中验证了算法的有效性和可收敛性。
Feb, 2018