BriefGPT.xyz
Ask
alpha
关键词
temporally abstract actions
搜索结果 - 2
学习鲁棒的选项
本研究介绍了一种名为 ROPI 的算法,用于在存在模型不确定性的情况下学习具有鲁棒性的选项。此外,我们还使用 RO-DQN 解决多个任务并缓解了由于模型不确定性而导致的模型错误,实验结果表明,具有粗糙特征表示时使用线性特征的策略迭代具有固有
→
PDF
6 years ago
使用宏操作的马尔可夫决策过程的层次解决方案
本文提出了一种使用抽象 MDP 的分层模型,该模型仅与 Macro-actions 一起工作,并显着减少了状态空间的大小,以及讨论了生成 Macro-actions 的几种方法和重用它们以解决多个相关 MDPs 的方式。
PDF
11 years ago
Prev
Next