Feb, 2011

休息和不休息赌博机的在线学习

TL;DR本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题,在每个时间步骤,用户可以玩 M 支手臂,其目标是决定每一步要播放哪些 K 支手臂,以在一系列试验中最大化其长期奖励,尤其与机会式频谱接入(OSA)的应用相关。