Oct, 2023

随机信息结构和非马尔可夫环境下的Q学习

TL;DR我们提出了一个收敛定理,研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代,特别是Q学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件,并将此定理的应用扩展到各种随机控制问题中。