AAAIAug, 2020

轨迹反馈的强化学习

TL;DR本文提出了一种基于轨迹反馈的强化学习算法,通过加强措施而无需为每个状态 - 动作对提供奖励,旨在处理现实世界的环境下反馈不及时的问题,同时,我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。