Jun, 2023

递归 Q 学习的近似信息状态收敛分析

TL;DR该论文研究了强化学习算法中的一种非马尔可夫过程,提出了一种基于近似信息状态 (AIS) 的改进方法,展示了其比基线更好的表现和与 AIS 表示相关的性能变化。