Jul, 2021

零和马尔可夫博弈中通用的函数逼近

TL;DR本文主要研究带有参数化的一般函数类的两人零和有限时间跨度马尔科夫博弈,在研究中提出了可行的算法,包括基于模型的算法和无模型算法,并且在状态 - 动作对数 $d$ 线性特征的情况下取得了比现有算法更好的效果,同时提出了最小极小规模的模型维度等概念来解决抽样复杂度的问题,最终得出了在模型上算法抽样复杂度可以通过将见证人等级推广到马尔科夫博弈来边界化。