May, 2023

延迟自适应策略优化及基于滞后赌博反馈的对抗MDP改进的遗憾

TL;DR研究PO在带有滞后奖励的对抗MDPs中的应用,提出Delay-Adapted PO算法并得到全新的表格MDPs回归界限,在基于线性Q函数的无限状态空间和深度RL应用中都取得了显著的成果。