BriefGPT.xyz
Ask
alpha
关键词
delayed mdps
搜索结果 - 1
通过世界模型进行延迟观察的强化学习
在标准强化学习设置中,通过立即获得行为后效果的反馈是常见的假设;然而,由于物理限制,在实践中这种假设可能并不成立,可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟
→
PDF
4 months ago
Prev
Next