Nov, 2023

强化学习中的概率推理正确实施

TL;DR强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态-行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态-行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为VAPOR,与汤普森抽样、K学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本VAPOR在性能上的优势。