Nov, 2015

强化学习的双重稳健性离线价值评估

TL;DR研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。