Jul, 2024

基于周期代理状态的Q学习在部分可观察的马尔可夫决策过程中的应用

TL;DR我们提出了PASQL(周期性基于智能体状态的Q学习),它是一种基于智能体状态的Q学习的变体,可以学习周期性策略,并展示了周期性策略相对于固定策略的优势。