BriefGPT.xyz
Ask
alpha
关键词
weakly coupled mdp problems
搜索结果 - 1
弱连接连续动作马尔可夫决策过程的深度强化学习
该论文介绍了用于弱耦合 MDP 问题和连续动作空间的 Lagrange 策略 (LPCA) 一种强化学习算法,它通过在神经网络框架中引入弱耦合 MDP 问题的 Lagrange 松弛来解决依赖于连续动作的资源约束挑战,并有效地解耦了 MDP
→
PDF
a month ago
Prev
Next