May, 2018

BelMan:基于置信度-奖励流形的贝叶斯臂选择算法

TL;DR本文提出了一种基于贝叶斯和信息几何学的通用方法,用于解决多臂赌博机问题的探索-开发权衡,并介绍了BelMan方法,该方法基于使用伪信念-激励的质心来概括赌博臂和其激励分布的知识,在某些特定情况下,BelMan不仅有竞争力,而且可能优于其他方法。