多智体决策的复杂性:从博弈中的学习到部分监控
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本文探讨了多人博弈中学习的样本复杂性问题, 并设计算法在样本复杂度多项式级别下, 求解多人一般和马尔可夫博弈的粗略关联均衡和关联均衡, 同时提出了针对特定条件下的学习算法, 显著提高了现有算法的效率和精度。
Oct, 2021
提供决策-评估系数,作为评估交互式学习复杂度的量,从而实现与样本效率无关的最佳后悔,同时引入了一种新的选择Estimation-to-Decisions(E2D),使得监督学习的算法适应于在线决策,从而实现了准确的与样本效率无关的学习,在强化学习中,该决策-评估系数可以快速恢复现有的大多数困难结果和下限。
Dec, 2021
本文研究了Markov粗粒度关联均衡问题的计算复杂性及其在多智能体强化学习中的应用,发现当多智能体交互为回合制、折扣因子和粗略程度为常数时,计算近似的Markov粗粒度关联均衡策略属于NP难问题,但是提供了在多智能体中非稳定Markov CCE策略的学习解决方案。
Apr, 2022
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习Markov粗糙关联均衡和Markov相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度以多项式方式扩展,从而打破了多代理的诅咒。
Feb, 2023
本文研究了去中心化多智能体强化学习问题中的不后悔算法,并探讨了自主学习能否在标准Markov博弈框架中实现无后悔学习。结果表明,无论是已知还是未知的博弈,该问题都无法以多项式时间实现无后悔学习,该文贡献了理论证明支持,提出了基于集聚方法的创新性应用,并发现了SparseCCE问题的下限,从而说明了近年来学者对于该问题的研究成果,并对博弈理论和强化学习算法研究方向提出了新的思考。
Mar, 2023
我们研究了多智能体强化学习(MARL)在一般和马尔可夫博弈(MG)下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数(MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低MADC的情况下保证在模型为基础和模型无关的MARL问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题(Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题(Foster et al. 2023)中执行抽样过程,因此更适合于实证实现。
Oct, 2023
本文首次通过对 Wang 等人 (2023) 的 AVLPR 框架进行优化,应用基于数据的悲观估计来解决“多智能体诅咒”,并提出了新颖的“动作相关奖励”方法,通过拓展选择插件算法的范围,结合单智能体强化学习领域的最新技术,提出了一种同时解决了多智能体诅咒问题、达到了最佳的 O(T^-1/2) 收敛速率以及避免了多项式依赖的算法。
Feb, 2024
本研究解决了基于人类反馈的多智能体强化学习(MARLHF)的理论和实证基础,特别是从偏好数据集中识别纳什均衡的问题。通过确定单一策略覆盖不足的理论界限,强调了单方面数据集覆盖的重要性,并提出了时间轴上的均方误差正则化和模仿学习等算法技术,以提升实际性能。研究结果为基于偏好的多智能体系统的有效性奠定了基础。
Sep, 2024