Apr, 2024

基于HSVI的部分观测随机博弈的在线极小化策略与神经感知机制

TL;DR我们提出了一种变种的连续状态部分可观测的随机博弈模型,其中包含神经感知机制和不对称信息结构。我们首次提出了一种高效的在线计算ε-极小极大策略配置的方法,每个阶段仅需解决一个线性规划问题,而不是复杂的对手反事实值估计。对于部分知情的智能体,我们提出了一种持续解决方法,使用由启发式搜索值迭代(HSVl)预先计算的下界代替对手反事实值。对于完全知情的智能体,我们提出了一种推断信念策略,该智能体基于HSVl的(离线)上界维护对部分知情智能体信念的推断,从而保证到初始信念上两智能体已知的游戏价值的ε-距离。