BriefGPT.xyz
Dec, 2019
强化学习的双重稳健离线策略演员-评论家算法
Doubly Robust Off-Policy Actor-Critic Algorithms for Reinforcement Learning
HTML
PDF
Riashat Islam, Raihan Seraj, Samin Yeasar Arnob, Doina Precup
TL;DR
本文研究了离策略演员 - 评论家算法的离策略评论家评估问题,并通过将双重稳健估计方法应用于演员 - 评论家算法中,成功提高了连续控制任务的性能。同时,该方法还可以应用于存在高方差和不稳定性等问题的奖励信号,从而提高了强化学习的稳健性与安全性。
Abstract
We study the problem of
off-policy critic evaluation
in several variants of value-based off-policy
actor-critic algorithms
. Off-policy
actor-crit
→