BriefGPT.xyz
Ask
alpha
关键词
primal-dual pi learning
搜索结果 - 1
深度原始 - 对偶强化学习:利用贝尔曼对偶加速演员 - 评论家算法
基于深度神经网络的参数 Primal-Dual pi 学习方法,旨在解决马尔可夫决策过程中状态空间大和策略离线学习问题,通过基本线性 Bellman 方法对价值和策略函数进行原始对偶更新,从而更加有效地进行价值和策略更新,在与同类方法比较的
→
PDF
7 years ago
Prev
Next