May, 2012

离策演员 - 评论家

TL;DR本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题,在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时,能够灵活地运用 policy 设计,具有较强的学习潜力和泛化性能,并能收敛至较好的算法性能。