ICMLMay, 2023

延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾

TL;DR研究 PO 在带有滞后奖励的对抗 MDPs 中的应用,提出 Delay-Adapted PO 算法并得到全新的表格 MDPs 回归界限,在基于线性 Q 函数的无限状态空间和深度 RL 应用中都取得了显著的成果。