计算人类可理解策略
本文提出了一种用行为策略作为可转移知识的方法进行知识转移的方法,定义了策略,并结合观察到的事件频率信息和局部序列对齐技术来提取策略,并在三种环境下得出了可行的策略,这是提取知识进行泛化和最终的转移学习的有希望的第一步。
May, 2023
本文提出了一种简单且计算成本低的本地最佳响应方法来计算最佳响应策略的值的近似下界,并使用此方法表明,基于解决抽象游戏的现有扑克程序在 Nash 均衡近似方面表现非常糟糕。
Dec, 2016
研究使用无遗憾算法在正态形式重复的 N 人博弈中,如何让人类玩家获得最大化效用,引入 Stackelberg 均衡和相关 Stackelberg 均衡的概念,证明玩家能够在每个回合至少保证相关 Stackelberg 期望值的效用。
Feb, 2022
本文研究了基于局部知识来学习研究各种类型的博弈及其均衡求解的复杂度,探讨了计算学习模型和对于各种博弈的查询复杂度,着重研究了对称网络拥塞博弈,并通过仅查询少量的纯策略来学习成本函数。
Feb, 2013
多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战,给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标,即获得代理人的总奖励的平等份额。
Jun, 2024
本论文提出了一种基于贝叶斯概率模型的智能扑克方法,通过分离游戏动力学和对手策略的不确定性,采用狄利克雷先验测试了对手的策略概率,对于对手的后验分布提出有效的对策,该方法在德克萨斯 Hold'em 中得到了应用。
Jul, 2012
本文提出使用自动规划代理来模拟不同技能水平的人来生成游戏过程,并从中收集指标以评估当前的游戏设计并确定其潜在缺陷。本文以 Scrabble 和 Cardonomicon 为案例,展示了使用模拟代理来模拟人类玩家如何从游戏中提取度量(在 Scrabble 的情况下)以及突出设计缺陷(在 Cardonomicon 的情况下)。
Aug, 2019
我们模拟独立强化学习算法在 Crawford 和 Sobel (1982) 的战略信息传输游戏中的行为,显示出训练一起的发送方和接收方收敛到接近游戏先验最优均衡的策略,从而在代理之间的利益冲突程度给出的前提下,按照 Nash 均衡预测发生最大程度的通信。我们发现这个结论在超参数和游戏的替代规范下是稳健的。我们讨论了对信息传输游戏中均衡选择理论、计算机科学中算法间新兴通信的作用以及市场中由人工智能代理人组成的勾结经济的影响。
Oct, 2023
本文提出了一个关于战略代理进行可能昂贵计算的普适的博弈论框架,利用该框架在一些已研究的博弈中(如有限重复犯罪囚徒困境和剪刀石头布)提供心理学上合理的解释,同时提出了保证博弈中存在均衡的自然条件。
Dec, 2014