BriefGPT.xyz
Jul, 2023
多观测视角下的样本高效学习POMDPs
Sample-Efficient Learning of POMDPs with Multiple Observations In Hindsight
HTML
PDF
Jiacheng Guo, Minshuo Chen, Huan Wang, Caiming Xiong, Mengdi Wang...
TL;DR
该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的POMDP子类:多观察揭示POMDP和可区分POMDP,同时这两个子类也放宽了传统的揭示POMDP的要求。
Abstract
This paper studies the
sample-efficiency
of
learning
in
partially observable markov decision processes
(
→