May, 2019

稳健强化学习的贝叶斯方法

TL;DR本文提出了基于不确定性鲁棒贝尔曼方程(URBE)的 DQN-URBE 算法,通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数,并能够快速调整参数以适应系统行为的变化,在保持鲁棒性的同时获得更少保守的解。