Aug, 2023
基于价值分布的模型化强化学习
Value-Distributional Model-Based Reinforcement Learning
Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters
TL;DR基于模型的贝叶斯强化学习视角,本研究旨在学习马尔科夫决策过程中基于参数(认知)不确定性引发的值函数后验分布的不确定性,通过引入一个 Bellman 算子,我们提出了 Epistemic Quantile-Regression (EQR) 算法,该算法学习了一个值函数分布,可用于策略优化,在几个连续控制任务中进行评估,表现优于已建立的基于模型和无模型算法。