Sep, 2022

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

TL;DR提出了一种新方法,即等效效果抽象,该方法利用环境动态的部分模型推断导致相同状态的状态动作对,从而将状态动作空间的大小减少一个等于动作空间基数的因子,以提高采样效率和规划效率。在网格世界环境下,通过实验证明,等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外,通过在车杆环境中进行实验,还表明本方法比现有方法更优秀,在使用 33 倍少的训练数据的情况下实现了更好的表现。