Oct, 2023

潜在马尔可夫决策过程的前瞻性侧信息

TL;DR在许多交互决策的场景中存在着潜在且未被观察到的固定信息。本文研究了拥有潜在上下文信息的潜在马尔可夫决策过程(LMDP)类的问题,证明了任何具有样本高效算法的算法必须至少具有 Ω(K^(2/3)) 的后悔,提出了一个具有匹配上限的算法。