May, 2023

具备函数逼近和理论保证的决策感知演员-评论家算法

TL;DR我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化TD误差目标不匹配的问题,并提出了一个通用的Actor-critic算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的RL问题上通过实验证明了决策感知的Actor-critic框架的好处。