BriefGPT.xyz
May, 2018
BelMan:基于置信度-奖励流形的贝叶斯臂选择算法
BelMan: Bayesian Bandits on the Belief--Reward Manifold
HTML
PDF
Debabrota Basu, Pierre Senellart, Stéphane Bressan
TL;DR
本文提出了一种基于贝叶斯和信息几何学的通用方法,用于解决多臂赌博机问题的探索-开发权衡,并介绍了BelMan方法,该方法基于使用伪信念-激励的质心来概括赌博臂和其激励分布的知识,在某些特定情况下,BelMan不仅有竞争力,而且可能优于其他方法。
Abstract
We propose a generic,
bayesian
, information geometric approach to the exploration--exploitation trade-off in
multi-armed bandit
problems. Our approach,
→