Sep, 2022

蒙特卡罗随机长度情节MDPs的UCB收敛性

TL;DR通过使用MC-UCB算法,可以在一大类马尔可夫决策问题(包括像Go和黑杰克这样的)中,使Q函数收敛到最优,从而改善强化学习的效果。