Dec, 2023

基于模型的风险意识策略优化的认知变异性

TL;DR基于模型的强化学习中,我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程,其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战,并提出了相应的近似方法。基于这个近似,我们引入了一种通用的策略优化算法,Q-不确定性软 Actor-Critic(QU-SAC),可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法,性能得到了提升。