BriefGPT.xyz
Ask
alpha
关键词
hyper policy gradient descent
搜索结果 - 1
具有下层背景上下文的随机双层优化与决策过程
我们介绍了一种基于情境马尔可夫决策过程(CMDP)的双层优化策略模型(BO-CMDP),该模型可以看作是领导者和随机情境共同决定多个马尔可夫决策过程(MDP)的设定,在各种应用中寻求最佳决策策略,进而应用于 MDP 模型设计、税务设计、奖励
→
PDF
a month ago
Prev
Next