May, 2023

具流式观察的贝叶斯风险厌恶 Q 学习

TL;DR本研究提出一种用于强化学习中的贝叶斯风险 MDP 问题的解决方法,旨在平衡鲁棒性和保守性。研究通过采用后验贝叶斯来估计转移模型,结合风险功能来控制模型的不确定性,并开发了多级贝叶斯风险敏感的 Q-learning 算法来解决问题。