May, 2012

强化学习探索的贝叶斯抽样方法

TL;DR本文提出了一种使用贝叶斯模型不确定性的模块化强化学习方法,BOSS(Best of Sampled Set)。该方法通过从后验分布中抽取多个模型并乐观地选择行动来推动探索。我们展示了该算法在近乎最优的收益和高概率下的样本复杂度较低,远低于后验分布在学习过程中收敛的速度。我们示范了BOSS与一种横跨状态的非参数模型配对,表明它的灵活性。