Mar, 2012

基于方差的奖励函数用于近似贝叶斯强化学习

TL;DR提出了一种基于后验概率分布的奖励加成方法,用于在 Bayesian RL 中解决探索与利用之间的困境,实现高效且有效的探索,能够利用结构化的先验知识,并证明其具有多项式样本复杂度。