Jun, 2020

潜在赌徒问题的再探讨

TL;DR本文提出了一种解决 “潜在赌徒问题” 的算法,该问题是指机器学习智能体在未知离散潜在状态下知道手臂奖励分布,其主要目标是识别潜在状态。算法基于 UCBs 和 Thompson 采样,并在模型不确定性和规格不准确时具有上下文感知能力。理论分析表明,当潜在状态的数量小于行动数时,我们的算法优于传统的赌徒策略。综合实证研究表明了我们方法的优势。