BriefGPT.xyz
Ask
alpha
关键词
value-demand augmentation
搜索结果 - 1
多项式时间下的受限强化学习确定性策略
我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则
→
PDF
a month ago
Prev
Next