多人零和游戏中解决联盟困境的学习
多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战,给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标,即获得代理人的总奖励的平等份额。
Jun, 2024
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
研究了多智能体系统和哈密顿动力学之间的联系,无论网络结构、复杂性以及使用的算法,都可以将零和网络博弈中的收敛动态映射到哈密顿动力学中。此外,该方法可以将在线优化,凸分析,博弈论和物理学之间的结果和方法进行互相转化。
Mar, 2019
本文研究了一类竞争场景,其中代理和它们玩的游戏都在时间上演化。该系统中的信息论保存定律、泊松回归和 Nash 均衡特征表明,尽管代理和游戏共同演化,但其结果仍然遵循一定的规律。同时,针对这种共同演化的网络游戏提出了预测代理行为的多项式时间算法。
Dec, 2020
本文介绍了 AlphaZero 和 MuZero 的算法,探究了它们的局限性,并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题,并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。
May, 2022
本文提出了一个几何框架来制定零和博弈中的智能体目标,以构建产生开放式学习的自适应目标序列,从而产生比现有算法更强的智能体集合。我们将 PSRO_rN 应用于两个高度非传递性的资源分配游戏,并发现 PSRO_rN 始终优于现有替代方案。
Jan, 2019
本文从多个角度对对抗博弈中三种主要的游戏模型(零和标准型和扩展型游戏,Stakelberg 安全游戏和零和微分游戏)进行了系统的调研,涵盖了游戏模型基础知识,平衡概念,问题分类,研究前沿,最优策略寻找技术,主要算法和实际应用,并探讨了未来的研究方向。
Jul, 2022
文章提出了一个通用框架,通过推断其他代理方的平衡状态来解决不确定性问题,并在多人机器人导航问题的模拟中证明,通过对准平衡状态,机器人可以更准确地预测轨迹并降低所有玩家的成本。
Feb, 2020
这篇论文介绍了一种应用于实际情境下的框架,用于推断底层博弈参数,其中包括了基于决策理论的行为模型,用于学习复杂博弈中有理智的行为,并利用第一阶原始 - 对偶方法扩展了有效的端到端学习算法和简化博弈求解和梯度计算的计算。
Mar, 2019
人工智能代理在现实世界中的部署需要与人类(以及其他异构的 AI 代理)可靠地合作。为了提供成功合作的形式化保证,我们必须对合作伙伴代理的行为做一些合理的假设。这项工作研究了在一个有限重复的、两个玩家的一般化总和矩阵游戏中与一个代理人群合作的问题,通过个体理性学习者的假设和在某个 Pareto 有效均衡策略下高概率实现至少与该策略相同效用,我们证明了这些假设本身不足以保证与目标人群成员的零 - shot 合作。因此,我们考虑了通过先前观察到的人群成员相互作用来学习与这样的人群合作的策略问题,并给出了学习有效合作策略所需样本数量的上限和下限。最重要的是,我们证明了这些界限可以比通过一种 “天真” 的问题简化到模仿学习中产生的界限更强。
Jun, 2024