随机团队与博弈的去中心化 Q-Learning
该论文提出了一种多智能体强化学习动态模型,分析了其在无限期贴现马尔可夫潜在博弈中的收敛性质。论文在独立和分散的环境下进行,重点研究了多智能体可以通过简单的学习动态方法在最小信息环境下达到马尔可夫潜在博弈的稳定纳什均衡。
May, 2022
本研究在非协调控制下,针对无限期、折现、零和马尔可夫博弈中的多智能体强化学习进行了研究。提出了一种无限期 Q 学习动态,该学习动态在没有集中控制器的情况下收敛到 Nash 均衡点,并且可以有效应对非固定环境的挑战。
Jun, 2021
本文介绍了一个针对零和博弈中基于无限目标平均报酬的分散式学习的无模型算法,称为 Decentralized Optimistic Nash Q-Learning (DONQ-learning),该算法能够获得 $T^{3/4}$ 阶数的高概率次线性遗憾和 $T^{2/3}$ 阶数的次线性期望遗憾。与以往的相关工作相比,该算法具有低计算复杂度和低内存空间要求。
Jan, 2023
该研究旨在建立一个框架,以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题,并通过设计一种学习环境机制,使每个代理人的最优解与 Nash 平衡策略一致,并为其推导出了一类分散式强化学习算法,同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。
Jul, 2020
本文提出一种可训练的在线分散式规划算法,基于分散蒙特卡洛树搜索,结合先前的剧集运行学习的队友模型,利用深度学习和卷积神经网络生成精确的策略逼近器,提高了策划性能。此算法支持去中心化在线规划的多代理系统.
Mar, 2020
本文将软 Q - 学习技术应用于随机博弈中的多智能体系统,实现可调的智能体策略,通过理论和实验贡献,证明了软 Q - 学习可以在各种不同类型的博弈中实现优异表现。
Feb, 2018
本文提出了新的高效 Q 学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计 Q 函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。
Feb, 2023
该论文研究了一类多智能体马尔可夫决策过程,在其中,网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前,论文探讨了一种分布式强化学习设置,并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏(可能随机)通信网络上的局部处理和信息交流,实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下,提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式,这些技术对独立的利益具有重要意义。
Apr, 2012
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018