Dec, 2020

支持感知CVaR赌博机的最优汤普森抽样策略

TL;DR本文研究一种多臂赌博机问题,其中每个臂的质量是在奖励分布的某个水平alpha上通过条件风险价值(CVaR)来测量。我们引入了一种新的CVaR赌博机定理的Thompson Sampling方法,尤其适用于基于物理资源的问题。我们在理论上提供了它们CVaR损失的最小化性能的可行性分析,实验结果表明这些策略是第一个在CVaR赌博机中实现渐近最优性的,并匹配了此设置的相应渐近下限。