Dec, 2012

零和马尔可夫博弈中的价值函数逼近

TL;DR研究了在零和 Markov 博弈中的价值函数逼近问题,提出了适用于 Markov 博弈的强化学习算法,并针对在两人同时进行移动的特殊问题,给出了 LSTD 和时间差分学习的线性价值函数逼近的收敛保障,通过 LSPI 算法,将该算法应用于足球领域和流量控制问题中,并证明了价值函数逼近在 Markov 博弈中的可行性。