具有不完美信息的 Omega 正则博弈算法
本文针对部分可观察 Markov 决策过程(POMDPs)和 ω 正则目标,研究了基于观测的策略,并解决了定性分析问题的计算复杂度和最优内存界限。
Sep, 2009
研究了在顺序不完美信息游戏中遵循规则的领导者动态,推广了 Poincaré 循环结果,并探讨了通过调整奖励来建立收敛保证的技术,进而构建了精确收敛到 Nash 平衡的算法,为零和二人不完美信息游戏的无模型算法提供了新思路。
Feb, 2020
本文提出两种新算法:平衡在线镜像下降和平衡对策后悔最小化,通过整合平衡探索策略到它们的经典对应物算法,解决学习不完美信息的广义零和游戏的近似 Nash 均衡问题。同时,将结果推广到学习多人游戏的粗略相关均衡。
Feb, 2022
我们提出了一种变种的连续状态部分可观测的随机博弈模型,其中包含神经感知机制和不对称信息结构。我们首次提出了一种高效的在线计算 ε- 极小极大策略配置的方法,每个阶段仅需解决一个线性规划问题,而不是复杂的对手反事实值估计。对于部分知情的智能体,我们提出了一种持续解决方法,使用由启发式搜索值迭代(HSVl)预先计算的下界代替对手反事实值。对于完全知情的智能体,我们提出了一种推断信念策略,该智能体基于 HSVl 的(离线)上界维护对部分知情智能体信念的推断,从而保证到初始信念上两智能体已知的游戏价值的 ε- 距离。
Apr, 2024
研究表明,通过公开玩家策略,可以从常见的收益游戏中摆脱不完美的信息,但同样的方法不能应用于两人零和游戏,该论文提出利用正则化平衡的方法来解决这个问题,以便计算这些均衡点可以被视为完美信息问题。
Jan, 2023
本研究在多智能体竞争的环境下对零和结构化 Markov 博弈问题的策略优化算法进行了提出和分析,考虑通过上置界乐观算法与虚拟博弈相结合的同时策略优化,从而使双方智能体的总体最优性差距以 $\widetilde {O}(\sqrt {K})$ 的速度收敛,其中 $K$ 为回合数量。
Jul, 2022
本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题,并给出了一组正负结果,其中提出的新算法在普通的策略类别小或对手策略类别小时,可取得平均的 regret 较小的结果。
Mar, 2022
我们研究了如何在带有轨迹反馈的零和不完全信息博弈中学习 ε- 最优策略,通过应用自适应在线镜像下降算法,在信息集中使用逐渐减小的学习率和正则化损失,我们证明了该方法在高概率下能够保证收敛速度为~T^(-1/2),并且在理论上的最佳学习率和采样策略选择时,对于游戏参数的依赖性接近最优。为了实现这些结果,我们扩展了对 OMD 稳定性的概念,允许随时间变化的凸增量正则化。
Sep, 2023
提供了一种高效的算法来解决多目标模型检验问题,该算法通过随机化策略来实现,在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线,并使用图论方法分析了一些定性多目标模型检验问题。
Oct, 2008