具有相似性信息的情境赌博机
该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。
Mar, 2020
在多臂赌博问题中,通过一系列试验从一组策略中选择算法,以最大化所选择策略的总回报,本文研究了策略集合为度量空间,回报函数满足 Lipschitz 条件的多臂赌博问题,提出了相应的算法和问题的下界。
Sep, 2008
本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题,该算法对每个网络节点(用户)分配了一个 Bandit 算法,并允许其与相邻节点共享信息,与传统 Contextual Bandit 方法相比,实验结果表明该算法在预测性能方面有显著提高。
Jun, 2013
本篇论文研究了解决上下文线性赌博机问题的隐私学习算法,其中采用联合差分隐私的定义将经典的线性 - UCB 算法转换成联合差分隐私算法,并在其中使用高斯噪声或 Wishart 噪声,使结果算法的遗憾得到了限制。此外,还给出了任何 MAB 问题私有算法必须产生的额外遗憾的第一个下限。
Sep, 2018
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置下对基线算法的优势。
Feb, 2020
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018