Feb, 2023

利用领域知识提高 POMDP 信念估计

TL;DR使用 Jeffrey 的规则和标准化,将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法,表明领域知识可以减少数据需求,提高使用强化学习的 POMDP 策略学习的性能。