BriefGPT.xyz
Ask
alpha
关键词
long-run average reward
搜索结果 - 1
通过随机博弈解决长期平均奖励健壮马尔可夫决策过程
马尔科夫决策过程(MDPs)为不确定性下的顺序决策制定了标准框架,但是 MDPs 中的转移概率通常是从数据中估计的,并且 MDPs 不考虑数据的不确定性。鲁棒马尔科夫决策过程(RMDPs)通过为每个转移分配不确定性集合而不是单个概率值来解决
→
PDF
7 months ago
Prev
Next