May, 2024

非精确多臂赌博机

TL;DR我们引入了一种新颖的多臂赌博问题框架,其中每个臂与一个固定的未知置信集相关联,覆盖了结果空间(可以比奖励更丰富)。臂 - 置信集对应关系来自已知的假设类。我们定义了一种与这些置信集定义的下概率相对应的遗憾概念。等价地,这个设置可以被视为一个两人零和博弈,其中在每一轮中,代理选择一个臂,对手从与该臂相关联的选择集中选择结果分布。遗憾是相对于游戏价值定义的。对于某些自然的假设类,这些类类似于随机线性赌博问题(是结果设置的特殊情况),我们提出了一个算法并证明了遗憾的上界。我们还证明了特定特殊情况下的遗憾下界。