May, 2024

$ε$- 优化地求解零和 POSG

TL;DR该研究论文介绍了一种解决零和部分可观察随机博弈问题的方法,通过将原始游戏嵌入一个称为占用马尔可夫游戏的新游戏中,可以应用贝尔曼最优原理来解决该问题。此方法通过利用价值函数的均匀连续性特性来提高解决方法的可扩展性,并且提出了一种比现有更新规则更高效的算子,降低了线性规划的约束数,并且展示了利用这些发现的基于点的值迭代算法在各种领域中提高了现有方法的可扩展性并保持了保证。