Nov, 2020

模型无关强化学习中的反事实信用分配

TL;DR本研究应用反事实的思想来解决强化学习领域中 action 对于未来奖励的影响以及技能和运气的区分问题,并提出了一种使用未来条件价值函数作为基准的策略梯度算法,以及加入了不确定因素的验证和实验,证明了该算法有效性和低方差的特点。