BriefGPT.xyz
Ask
alpha
关键词
hindsight state information
搜索结果 - 1
带有部分后见状态信息的 POMDP 在 RL 中的理论难度与可解性
本文研究部分可观察马尔科夫决策过程(POMDP),发现除非我们拥有完整的后见状态信息,否则需要指数级的样本复杂度才能实现对 POMDP 的一个 ε- 最优策略解,但有部分 POMDP 分类情况下,其状态信息是足够的,本文提出了新的算法并证实
→
PDF
a year ago
Prev
Next