多智能体展开算法与强化学习
我们提出了一个近似的一次一个滚动法算法,通过将图分割成基于预测需求和用户定义的最大代理数量的区域,以减少计算成本,并在每个区域中并行执行一次一个滚动法算法,从而实现稳定的近似最优策略。
Nov, 2023
本文提出了一种完全分布式、在线和可扩展的增强学习算法,用于解决多车辆路径规划问题,代理定期聚集在本地簇中,独立地在每个簇中应用多智能体扩展方案,动态地在代理之间协调任务并共享其局部信息。通过较大规模的模拟,证明了分布式滚动算法比贪婪基础策略具有近两倍的成本优势。
May, 2023
我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法,其中使用近似线性规划计算近似值函数并实施分散策略改进。
Nov, 2023
本研究提出了一种名为局部策略迭代的算法,可以通过提高智能体之间的合作,最大化长期奖励的平均值,解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。
Nov, 2022
探索使用强化学习解决多智能体问题,将多智能体强化学习问题视为分布式优化问题处理,假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替,结果表明该算法在协作和竞争任务上比现有方法更加有效。
May, 2018
研究探讨了在存在许多本地代理的全局决策制定中的强化学习问题,旨在通过学习一种最大化全局和本地代理奖励的策略来解决可扩展性挑战。提出了 SUB-SAMPLE-Q 算法,该算法通过对局部代理进行子采样来计算最优策略,其时间复杂度仅在 k 方面呈指数增长,相较于标准方法能够提供指数级的加速。研究结果表明,学习到的策略在子采样代理数量 k 增加时会趋近于最优策略,并且收敛的顺序为 O (1/√k + εk,m),其中 εk,m 为贝尔曼噪声。同时进行了需求响应和排队模拟实验。
Mar, 2024
本文提出了一种基于 OMWU 方法的单环路政策优化算法,并在二人零和马尔可夫博弈中,通过控制正则化的程度,实现了有限时间的最后一次线性收敛到达量子响应均衡点,并在全信息离散设置中实现了收敛结果。
Oct, 2022
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019