Nov, 2018

使用强调加权的离线策略梯度定理

TL;DR本文提出了第一个适用于 off-policy learning 的 policy gradient 定理,并通过使用 emphatic weightings 导出了简化的梯度公式,并使用 Actor Critic with Emphatic weightings (ACE) 算法验证了该定理的正确性。