AAAINov, 2017

基于信息指导取样的带图反馈随机赌博机算法

TL;DR本文旨在解决具有图反馈的随机多臂赌博问题,探讨了 Thompson 采样和基于信息学的采样策略等方案,提出了 Bayesian 遗憾的限制,并通过数值实验证明了新的决策策略的有效性。