大规模完全信息博弈中求解领导者-追随者均衡的函数逼近
本文主要研究如何通过改进膨胀熵函数的设计,加速第一阶段方法来解决 extensive-form games 问题,并提出了新的加权方案,实践证明本文方法比 CFR+算法更快。
Feb, 2017
本文研究了扩展形式博弈中存在不确定性的Stackelberg均衡及其鲁棒性问题,分别引入了关于对手收益以及对手节点估值函数的不确定性条件,并提出了一种新的混合整数规划模型计算此类问题,证明可以在特定情况下准确可靠地计算出鲁棒Stackelberg均衡。
Nov, 2017
本论文提出了一种新的方法来近似求解弱Stackelberg均衡,方法基于Follower策略空间的引导式Monte Carlo树搜索和Leader的行为策略树建立,并在用于三个不同拓扑结构的博弈测试中取得了优异的效果,较传统方法更具实用性和时间可扩展性。
Sep, 2019
本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法,该算法通过构建价值函数的上下置信区间,并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题,实现了性能的总时间平方根复杂度的上限。
Feb, 2020
在嘈杂的赌徒反馈环境中,理论研究了 Stackelberg 均衡的样本有效学习,识别了 Stackelberg 均衡真实值与使用有限噪声样本估计版本之间的基本差距,并建立了与其相匹配的下限。
Feb, 2021
提出了用于训练n人,广义和形博弈的Joint Policy-Space Response Oracles (JPSRO)算法,并建议一种有前途的元解算程序 -- 相关均衡(correlated equilibria),并提出了最大基尼相关均衡(MGCE)的新解决方案概念。通过使用CE元解决程序对JPSRO进行多次实验,证明了在n人,广义和游戏中的收敛性。
Jun, 2021
本文提出两种新算法:平衡在线镜像下降和平衡对策后悔最小化,通过整合平衡探索策略到它们的经典对应物算法,解决学习不完美信息的广义零和游戏的近似Nash均衡问题。同时,将结果推广到学习多人游戏的粗略相关均衡。
Feb, 2022
研究了针对不同类型的协同均衡的最优相关策略问题,提出了相关DAG表示方法和双面列生成算法来计算最优策略并探讨其复杂性分析,探究了一些新的基准博弈。
Mar, 2022
本论文提出了一种基于优化原则的在线学习算法,通过在函数空间中最小化对偶差来寻找Nash均衡点,在马尔科夫博弈中进行非线性函数逼近,解决了高维函数空间中的探索问题,并扩展了几种算法,其中一个可以实现更紧的遗憾上界,另一个可以应用于神经网络函数逼近的模型错误说明。
Aug, 2022