Oct, 2023

利用后验抽样开发因果图先验的强化学习

TL;DR我们提出了一种新的后验抽样方法,其中先验以环境变量之间的(部分)因果图形式给出,该方法称为C-PSRL,在同时学习更高层次的完整因果图和更低层次的分解动力学参数时,明确了其贝叶斯遗失与先验知识的程度之间的关系。我们在说明性领域进行的数值评估证实了C-PSRL在先验信息不足的情况下极大提高了后验抽样的效率,并且性能接近使用完整因果图进行后验抽样。