Jul, 2023

多观测视角下的样本高效学习 POMDPs

TL;DR该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP,同时这两个子类也放宽了传统的揭示 POMDP 的要求。