BriefGPT.xyz
Ask
alpha
关键词
delay-adapted po
搜索结果 - 1
ICML
延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾
研究 PO 在带有滞后奖励的对抗 MDPs 中的应用,提出 Delay-Adapted PO 算法并得到全新的表格 MDPs 回归界限,在基于线性 Q 函数的无限状态空间和深度 RL 应用中都取得了显著的成果。
PDF
a year ago
Prev
Next