HSVI 能够解决零和部分可观察随机博弈
我们提出了一种变种的连续状态部分可观测的随机博弈模型,其中包含神经感知机制和不对称信息结构。我们首次提出了一种高效的在线计算 ε- 极小极大策略配置的方法,每个阶段仅需解决一个线性规划问题,而不是复杂的对手反事实值估计。对于部分知情的智能体,我们提出了一种持续解决方法,使用由启发式搜索值迭代(HSVl)预先计算的下界代替对手反事实值。对于完全知情的智能体,我们提出了一种推断信念策略,该智能体基于 HSVl 的(离线)上界维护对部分知情智能体信念的推断,从而保证到初始信念上两智能体已知的游戏价值的 ε- 距离。
Apr, 2024
本文提出了一种名为启发式搜索值迭代 (HSVI) 的新型 POMDP 规划算法,采用注意力集中搜索启发式和分段线性凸表示值函数的技术相结合,可在保证收敛与正确性的情况下提高计算速度,并在大规模问题上运用效果良好。
Jul, 2012
使用三种方法解决了物理信息机器学习方法在机器人应用中由于采样性质而产生的不连续解的问题,并在 5D、9D 车辆模拟和 13D 无人机模拟中证明了混合方法在泛化和安全性能方面的优越性。
Nov, 2023
该研究论文介绍了一种解决零和部分可观察随机博弈问题的方法,通过将原始游戏嵌入一个称为占用马尔可夫游戏的新游戏中,可以应用贝尔曼最优原理来解决该问题。此方法通过利用价值函数的均匀连续性特性来提高解决方法的可扩展性,并且提出了一种比现有更新规则更高效的算子,降低了线性规划的约束数,并且展示了利用这些发现的基于点的值迭代算法在各种领域中提高了现有方法的可扩展性并保持了保证。
May, 2024
本文研究部分可观察马尔科夫决策过程(POMDP),发现除非我们拥有完整的后见状态信息,否则需要指数级的样本复杂度才能实现对 POMDP 的一个 ε- 最优策略解,但有部分 POMDP 分类情况下,其状态信息是足够的,本文提出了新的算法并证实这些算法是近似最优解。
Jun, 2023
本文介绍了神经符号人工智能在不确定性的情况下进行序列决策的一种新方法,即神经符号部分可观察马尔可夫决策过程 (NS-POMDPs);提出了基于多面体的新型连续状态置信度分段线性凸表示 (P-PWLC),并且扩展将 Bellman 备份应用于此表示,设计了两种值迭代算法,即经典的值迭代算法和基于点的近似方法。通过两个车辆停车和飞行器避碰案例研究,展示了该方法的实际应用。
Jun, 2023
研究了在零和 Markov 博弈中的价值函数逼近问题,提出了适用于 Markov 博弈的强化学习算法,并针对在两人同时进行移动的特殊问题,给出了 LSTD 和时间差分学习的线性价值函数逼近的收敛保障,通过 LSPI 算法,将该算法应用于足球领域和流量控制问题中,并证明了价值函数逼近在 Markov 博弈中的可行性。
Dec, 2012
本研究提出了计算 Harsanyi-Shapley 值的简单公式,探讨了将其推广到随机游戏中的两种方法,并在三个或更多玩家的随机网格游戏中通过实证验证了一种使用广义 Q-learning 算法计算 HS 值的方法。
Mar, 2023
提出了神经符号部分可观测随机博弈(NS-POSGs)模型,针对部分可观测的环境及基于连续数据的数据驱动方法,引入了感知机制,提出了基于粒子置信度的一侧 NS-HSVI 方法,用于近似计算一侧 NS-POSGs 的值,并在实验中证明了这一方法对于具有多面体形式的神经网络的实际适用性。
Oct, 2023
本文展示了如何在保持优化性的同时,通过分层信息共享来解开多个玩家的决策变量,应用最优性原理将一个单个阶段的子游戏进一步分解为更小的子游戏,从而使我们能够一次进行单个玩家的决策。我们的研究结果表明,利用这些发现的算法可以扩展到更大的多人游戏而不损害优化性。
Feb, 2024