delay-adapted po | BriefGPT

关键词delay-adapted po

搜索结果 - 1

ICML延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾
研究 PO 在带有滞后奖励的对抗 MDPs 中的应用，提出 Delay-Adapted PO 算法并得到全新的表格 MDPs 回归界限，在基于线性 Q 函数的无限状态空间和深度 RL 应用中都取得了显著的成果。
PDFa year ago