May, 2023

最大价值-指数反馈下的组合赌博机最大价值奖励函数

TL;DR研究了在最大价值和指标反馈下的组合多臂赌博问题,并提出一种算法来保证概率有限支持中随机手臂结果的遗憾。