BriefGPT.xyz
Sep, 2022
蒙特卡罗随机长度情节MDPs的UCB收敛性
On the Convergence of Monte Carlo UCB for Random-Length Episodic MDPs
HTML
PDF
Zixuan Dong, Che Wang, Keith Ross
TL;DR
通过使用MC-UCB算法,可以在一大类马尔可夫决策问题(包括像Go和黑杰克这样的)中,使Q函数收敛到最优,从而改善强化学习的效果。
Abstract
In
reinforcement learning
,
monte carlo
algorithms update the Q function by averaging the episodic returns. In the
monte carlo
UCB (MC-UCB)
→