潜在赌徒问题的再探讨

Jun, 2020

Latent Bandits Revisited

Joey Hong, Branislav Kveton, Manzil Zaheer, Yinlam Chow, Amr Ahmed...

TL;DR本文提出了一种解决 “潜在赌徒问题” 的算法，该问题是指机器学习智能体在未知离散潜在状态下知道手臂奖励分布，其主要目标是识别潜在状态。算法基于 UCBs 和 Thompson 采样，并在模型不确定性和规格不准确时具有上下文感知能力。理论分析表明，当潜在状态的数量小于行动数时，我们的算法优于传统的赌徒策略。综合实证研究表明了我们方法的优势。

Abstract

A latent bandit problem is one in which the learning agent knows the arm reward distributions conditioned on an unknown discrete latent state. The primary goal of the agent is to identify the latent state, after which it can act optimally. This setting is a natural midpoint between onl

latent bandit problem online learning offline learning upper confidence bounds thompson sampling

发现论文，激发创造

线性潜在匪徒中利用离线数据

通过建立 de Finetti 定理和提出 SOLD 方法，该研究论文展示了潜在赌博机框架的广泛适用性，以及在线学习和离线数据集问题的解决方案，并在合成数据和电影推荐数据上进行了实验证明。

May, 2024

非平稳潜在自回归赌博算法

我们考虑具有非平稳收益的随机多臂赌博问题，提出了一个称为潜在 AR 赌博的新环境，在这个环境中，臂的平均收益随时间变化是由未知的、潜在的、自回归（AR）阶数为 k 的状态引起的。针对已知的 AR 阶数 k，我们提出了一个算法，在这种情况下实现了 O (k√T) 的遗憾。在多个非平稳环境中，我们的算法在实证上优于标准 UCB，即使 k 被错误估计。

Feb, 2024

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013

具有马尔可夫回报的多臂赌博机问题的在线算法

考虑带 Markov 奖励的经典多臂赌博机问题，玩一只手臂时，其状态会按 Markov 方式更改，不玩时保持冻结。玩一只手臂时，玩家会获得与状态相关的奖励，每只手臂的状态转移概率未知。我们证明在手臂的状态转移概率满足一定条件下，基于样本均值的指数策略能够在总试验次数上实现对数遗憾，同时也证明了在具有休息的 Markov 赌博机模型下，样本均值指数策略不会降低最优性。此外，对比 Anantharam 的指数策略和 UCB，我们发现通过选择一个小的探索参数 UCB 可以比 Anantharam 的指数策略拥有更小的遗憾。

Jul, 2010

可预测奖励的情境决策学习

本研究探讨了一种基于可实现性假设下的上下文强化学习问题，并提出了一种新算法 —— 回归器消除，证明了其在保证可实现性前提下，也具有与不可实现性假设情况相似的遗憾率；同时在任意一组策略的情况下，我们证明了本算法具有恒定遗憾，相对于之前的方法而言。

Feb, 2012

利用（有偏）信息：带离线数据的多臂老虎机

利用离线数据在随机多臂赌博机的在线学习中进行了改进，提出了一个在线策略 MIN-UCB，在给定非平凡上界的情况下优于 UCB，适当地选择使用离线数据以提高性能，理论和实验结果都表明 MIN-UCB 是一个有效的策略。

May, 2024

成本感知级联赌博算法

本文提出了一种成本感知的级联赌博模型，研究其应用在在线和离线环境下的表现，并介绍了一种新的成本感知级联上置信区间算法以解决在线环境下的问题。

May, 2018

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

具有线性奖励和附加信息的不稳定隐马尔可夫赌博机

本论文提出了一种针对具有线性奖励的隐藏马尔可夫赌博问题的模型，基于结构性侧面信息，能在凸多面体动作集的情况下恢复隐藏状态并保持对数遗憾。

Oct, 2019