- IJCAI不完全回忆博弈:均衡概念及其复杂性
通过研究不完全记忆下的最优决策问题,我们分析了广义形式博弈中多个解概念(纳什均衡、基于证据决策理论的多个自体以及基于因果决策理论的多个自体)下,在多人情景中寻找均衡的计算复杂性,同时关注精确和近似解的计算。我们将单人游戏、两人零和游戏与最小 - 独立功能逼近的强化学习与马尔可夫博弈:在局部访问模型下改进的样本复杂度界限
学习大状态和动作空间中的均衡、克服多项机构所带来的麻烦是一个具有挑战性的问题,最近的研究尝试通过使用独立的线性函数类来逼近每个代理的边际 Q 值来解决这个问题。我们介绍了一种新算法 Lin-Confident-FTRL,用于学习具有本地对模 - 两阶段设施选址中的平衡解与原子客户
我们考虑竞争性设施位置问题作为一种具有两种类型客户的两阶段多智能体系统。我们以图中加权客户的主机图为基础,首先设施代理机构战略性地选择开设设施的顶点。然后,客户战略性地选择在其邻域中要光顾的已开设设施之一。我们的主要结果是,如果所有客户的权 - 超越对称零和游戏的神经人口学习
我们研究了在 n 个玩家一般和游戏中寻找均衡的计算方法,特别是适用于复杂的视觉运动技能。我们展示了现有方法在此场景下要么计算上困难,要么在理论上受限。接着,我们介绍了 NeuPL-JPSRO 算法,一种神经人口学习算法,通过技能的迁移学习, - 进化博弈论:进化与集体行为的数学
本文讨论了进化博弈理论作为一种强大而统一的数学工具,用于研究集体行为的演化,总结了作者最近通过进化博弈理论方法所涉及的一些研究方向,包括:i)随机进化博弈中(稳定)均衡数量的统计性质分析,以及 ii)在技术发展竞赛中建模安全行为的演化及先进 - 广义广义扩展形式虚拟博弈算法
我们介绍了一种简单的广义形式虚拟博弈算法,用于寻找二人零和游戏的均衡点,该算法实现等价于 Fictitious Play 的广义形式。与类似的广义形式虚拟博弈算法和反事实遗憾最小化算法相比,我们比较了其性能。这三种算法在减少存储需求和计算复 - 用于非平稳多智体强化学习的黑盒方法
本文提出了一种 black-box 的方法来学习在非稳态多智能体系统中的均衡,可以适用于广泛的问题,如一般和游戏、潜在游戏和马尔科夫游戏,并在测试次数和非稳态程度的度量下,取得了可接受的性能表现。
- 单调博弈中学习的弹弓方法
本文提出了一种新的针对噪声问题的计算均衡的框架,包含现有的付款规范算法,并具有最后迭代收敛性质。主要思想是扰动或规范化游戏的支付或效用。这种扰动可以将当前策略拉到固定点,称为滑轮策略。通过周期性更新滑轮策略,我们演示了最后迭代的收敛。最后, - IJCAI时态网络创造博弈
本文研究了时间图和博弈论网络形成模型,介绍了一种简化的模型,证明了它的均衡点是时间跨度算法问题中的一个解,指出了需要深入研究策略代理人创造时间图的难点。
- IJCAI具有连续类型的 Schelling 博弈
研究居住区划分如何受到非范畴属性的影响,并通过代理机制的多种模型,分析其平衡状态及稳定性,并进行了模拟结果比较。
- IJCAI具有同类特性代理的战略资源选择
提出了一种具有不同类型特征的异质自私玩家的资源选择博弈模型,类似于 Schelling Games,对资源使用的最低同类型代理人比例指定了容忍度阈值 τ。该模型考虑了均衡的存在性和质量,以及社会福利最大化的复杂性,并考虑了有限理性模型,其中 - 单峰跳跃谢林游戏
本文主要研究具有单峰效用函数的 Jump Schelling Games 模型,并探讨该模型下的等衡状态与响应动态的特征,同时提出了积分度量和稳定代价的新概念,并分析了计算高积分度量状态的 NP 难度。
- 在大状态空间中打破多智体的诅咒:独立线性函数逼近的马尔可夫博弈中的强化学习
我们提出了一种新模型独立线性马尔可夫游戏,用于具有大状态空间和大量代理的多代理强化学习,该模型具有独立线性函数逼近,并为其设计了新算法以学习 Markov 粗糙关联均衡和 Markov 相关均衡,其采样复杂度只随着每个代理自己的函数类复杂度 - 马尔科夫博弈中的离线学习和一般函数逼近
研究离线多智体强化学习在马尔科夫博弈中学习近似均衡,提供适用于一般函数逼近的新框架以处理所有三种均衡,此框架利用 Bellman 一致压缩和数据覆盖条件,与之前的算法框架相比,其保证更好且能够处理更广泛的情况。
- 基于信息价值的强化学习中的探索率调整
通过将基于信息价值的探索优化转化为寻找不断变化的探索率下的流的平衡问题,本文提出了一种高效的路径跟踪方案,以收敛到这些平衡,从而发现最佳的动作选择策略,并在一些 Nintendo GameBoy 游戏上进行了实验来证明这种方法的优越性。
- 端到端游戏学习和干预
本文提出了一个通过学习和干预博弈进行端到端优化的框架,将博弈均衡作为个体层级进行整合,并提出了两种不同的方法用于学习个体的收益函数并在解决变分不等式的过程中进行反向传播。
- 算法决策中个体理性投资的不一致平衡
研究算法决策对长期影响的动态学习设置,通过对决策规则和个人投资之间的互动进行建模,表明通过分组复制规则和投资成本补贴两种干预措施可实现更好的长期结果,但前提是要考虑到组内异质性以及可实现性的影响。
- IJCAI使用利用率下降算法计算序列对抗游戏的近似均衡
本文提出了一种名为 “Exploitability Descent” 的新算法,通过直接针对最坏情况的对手进行策略优化,计算具有不完全信息的两人零和博弈的近似均衡。我们证明,当遵循此优化时,玩家策略的可利用性会渐近地收敛于零,因此当两个玩家 - 从 Hotelling 到负载均衡:逼近与最小差异原理
研究 Hotelling 模型与负向网络外部性的相互作用,证明了准纯子博弈最优解存在并符合最小差异原则,具有高社会福利。
- 战略性主体的谢林隔离
本研究介绍和分析了 Schelling 隔离的广义博弈论模型,证明了最接近原始模型的版本的收敛行为和平衡效率,并提供了价格失范的紧密界限。