具有相似性信息的情境赌博机

Jul, 2009

Contextual Bandits with Similarity Information

Aleksandrs Slivkins

TL;DR本文考虑相似度信息在上下文赌博中的应用，设计了基于自适应分区调整的更有效算法，用于在广告投放等领域中解决相应问题。

Abstract

In a multi-armed bandit (MAB) problem, an online algorithm makes a sequence of choices. In each round it chooses from a time-invariant set of alternatives and receives the →

multi-armed bandit contextual bandits similarity algorithm payoff

发现论文，激发创造

多任务学习用于情境赌博机

本文提出了一个基于上限置信区间的多任务学习算法框架，用于处理具有高任务相似性的上下文型臂带问题，并揭示了此算法在数据中高任务相似性的优势。

May, 2017

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

多臂赌博机与情境赌博机的实际应用调查

该研究详细回顾了多臂赌博框架在各种应用领域上的最新前沿发展，例如推荐系统、信息检索、医疗保健和金融等，同时提供了未来该领域的重要趋势和新视角。

Apr, 2019

度量空间中的赌徒和专家

本文研究一种广泛适用于多臂赌博机问题的设置，其中策略构成度量空间，支付函数对度量满足 Lipschitz 条件，并提出了一种算法使之达到最优。

Dec, 2013

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

度量空间中的多臂老虎机

在多臂赌博问题中，通过一系列试验从一组策略中选择算法，以最大化所选择策略的总回报，本文研究了策略集合为度量空间，回报函数满足 Lipschitz 条件的多臂赌博问题，提出了相应的算法和问题的下界。

Sep, 2008

一伙强盗

本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题，该算法对每个网络节点（用户）分配了一个 Bandit 算法，并允许其与相邻节点共享信息，与传统 Contextual Bandit 方法相比，实验结果表明该算法在预测性能方面有显著提高。

Jun, 2013

差分隐私上下文线性赌博机

本篇论文研究了解决上下文线性赌博机问题的隐私学习算法，其中采用联合差分隐私的定义将经典的线性 - UCB 算法转换成联合差分隐私算法，并在其中使用高斯噪声或 Wishart 噪声，使结果算法的遗憾得到了限制。此外，还给出了任何 MAB 问题私有算法必须产生的额外遗憾的第一个下限。

Sep, 2018

基于上下文多臂赌博机的时变用户兴趣个性化推荐

研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Feb, 2020

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018