Nov, 2018
使用强调加权的离线策略梯度定理
An Off-policy Policy Gradient Theorem Using Emphatic Weightings
Ehsan Imani, Eric Graves, Martha White
TL;DR本文提出了第一个适用于 off-policy learning 的 policy gradient 定理,并通过使用 emphatic weightings 导出了简化的梯度公式,并使用 Actor Critic with Emphatic weightings (ACE) 算法验证了该定理的正确性。