基于分布学习的博弈论解决方案框架
考虑从严格的行为数据中学习线性影响博弈 (LIGs) 的结构和参数,通过纯策略 Nash 平衡的最大似然估计 (MLE) 将学习问题转化为生成模型的估计,在控制平衡数量的同时捕捉数据中的均衡行为。该方法可以应用于识别大型 (社交) 网络中最有影响力的个体,并支持决策分析和其他普适性的图形游戏。
Jun, 2012
本文基于博弈论原理研究了一种基于人口统计的培训体系——策略空间响应神谕(PSRO),并将其扩展到广义和多人游戏中。通过使用另一种解决方案概念 $\alpha$-Rank,在一些游戏分类中建立了收敛保证,并确定了 Nash 平衡和 $\alpha$-Rank 之间的联系。实验结果表明,基于 $\alpha$-Rank 的 PSRO 可以在很多游戏中实现比近似 Nash Solver 更快的收敛速度。
Sep, 2019
该研究旨在建立一个框架,以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题,并通过设计一种学习环境机制,使每个代理人的最优解与 Nash 平衡策略一致,并为其推导出了一类分散式强化学习算法,同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。
Jul, 2020
提出了一种基于能量的处理合作博弈问题的方法,通过变分推断模型进行一步固定点迭代,恢复出各种博弈论估价标准,并证明这些变分估价都满足一组博弈论公理,并在某些合成和实际的评估问题上实验表明所提出的变分索引具有更低的解耦误差和更好的估值性能。
Jun, 2021
该研究基于连续时间技术提出了一个理论模型,旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制,该研究证明了人工智能算法之间存在的勾结现象,并提出了一种足以消除算法间自发耦合的充分条件,以及设计学习鲁棒性策略的机制所必要的回馈机制。
Feb, 2022
探究Hedonic Games的PAC可学习性和PAC稳定性,并提供不同类别的学习/稳定性结果,特别是在全表达形式下的Hedonic Coalition Nets表述中,我们识别了两组条件并针对特定Hedonic Games类别阐明了推动学习/稳定性的结构属性。
Jan, 2023
本研究提出了计算Harsanyi-Shapley值的简单公式,探讨了将其推广到随机游戏中的两种方法,并在三个或更多玩家的随机网格游戏中通过实证验证了一种使用广义Q-learning算法计算HS值的方法。
Mar, 2023
该研究开发了一种新算法,名为Fictitious Cross-Play(FXP),同时训练了基于自我博弈和交叉博弈的主策略和反应策略,并在矩阵游戏中证明了FXP能够收敛到全局纳什均衡点,而自我博弈方法则无法达到。
Oct, 2023
通过研究正则化的无悔学习方法在有限游戏中的长期行为,我们发现玩家的实际策略如何随时间演变的理解非常有限,同时发现只有严格纳什均衡是稳定吸引的,进而揭示了玩家的日常对策的集合有理性的特性。我们进一步刻画了相应集合的稳定和收敛速率,并表明基于熵正则化的方法以几何速度收敛,而基于投影的方法在有限次迭代内收敛,即使是在带有被动反馈的并发奖励的情况下。
Nov, 2023
在本文中,我们考虑了随机合作博弈的稳定分配学习问题,在这个问题中,奖励函数被描述为具有未知分布的随机变量。我们提出了一个名为“Common-Points-Picking”的算法,它在多项式数量的样本下,以很高的概率返回一个稳定的分配。我们的算法分析涉及了凸几何学中的一些新结果,包括多个凸集合分离超平面定理的扩展,可能具有独立的研究价值。
Feb, 2024