Aug, 2023

基于价值分布的模型化强化学习

TL;DR基于模型的贝叶斯强化学习视角,本研究旨在学习马尔科夫决策过程中基于参数(认知)不确定性引发的值函数后验分布的不确定性,通过引入一个 Bellman 算子,我们提出了 Epistemic Quantile-Regression (EQR) 算法,该算法学习了一个值函数分布,可用于策略优化,在几个连续控制任务中进行评估,表现优于已建立的基于模型和无模型算法。