BriefGPT.xyz
Ask
alpha
关键词
model-free setting
搜索结果 - 1
一种使用学习 MDP 同态的状态 - 动作抽象简易方法
提出了一种新方法,即等效效果抽象,该方法利用环境动态的部分模型推断导致相同状态的状态动作对,从而将状态动作空间的大小减少一个等于动作空间基数的因子,以提高采样效率和规划效率。在网格世界环境下,通过实验证明,等效效果抽象可以在模型自由设置和基
→
PDF
2 years ago
Prev
Next