Jul, 2023

多观测视角下的样本高效学习POMDPs

TL;DR该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的POMDP子类:多观察揭示POMDP和可区分POMDP,同时这两个子类也放宽了传统的揭示POMDP的要求。