Mar, 2024

腐败稳健的离线双人零和马尔可夫博弈

TL;DR我们研究了线性马尔可夫游戏中离线两人零和游戏中的数据损坏鲁棒性问题,提出了鲁棒版本的悲观极小极大值迭代算法,并给出了关于 epsilon 的 (近) 最优次优性能界限。