资源丰富的情境臂控制器

MMFeb, 2014

Resourceful Contextual Bandits

Ashwinkumar Badanidiyuru, John Langford, Aleksandrs Slivkins

TL;DR我们设计了第一个算法来解决具有资源限制的情境赌博问题，包括具有任意策略集的情境赌博和背包式赌博，并证明了具有接近最优统计属性的遗憾保证。

Abstract

We study contextual bandits with ancillary constraints on resources, which are common in real-world applications such as choosing ads or d

contextual bandits ancillary constraints resources algorithm regret guarantee

发现论文，激发创造

一种高效的含背包限制多臂赌博算法，以及对凹目标问题的扩展

研究了具有全局背包限制条件下的上下文多臂赌博问题，提出了一种计算效率更高、后悔更低的算法，复杂度与策略空间的大小成对数关系，并将结果推广到一种没有背包限制但目标是任意 Lipschitz 凹函数的变体。

Jun, 2015

线性上下文多臂赌博机和背包问题

本文研究了带有资源消耗的线性情境赌博机问题，算法具有近乎最优的遗憾界，并将技术从 Solution 综述中的线性情境赌博机，背包赌博机和在线随机填充问题中结合使用。

Jul, 2015

上下文多臂赌博机调查

该研究综述了几种随机和对抗性的上下文 Bandit 算法，分析了每个算法的假设和遗憾界。

Aug, 2015

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

聚类线性情境强化学习与背包

本文研究了集群上下文强化学习，其中回报和资源消耗是集群特定线性模型的结果，算法无法知晓各个元素的集群成员关系。通过拉动一根臂在一个时间段内会产生回报和对于多个资源的消耗，并且任何资源的总消耗超过约束条件会导致算法终止。因此，最大化总回报需要学习回报、资源消耗和集群成员关系的模型。我们提出了一种算法，在时间段的数量上具有亚线性的遗憾，并且不需要访问所有的臂。特别地，我们证明只需对随机选择的一部分臂执行一次聚类即可达到这个结果。为了实现这个结果，我们结合了计量经济学和约束条件强化学习的文献中的技术。

Aug, 2023

学习中的公平性：经典和情境赌博机

本研究介绍了多臂赌博问题中的公平性概念以及提出了基于 “chained” 置信区间的多臂赌博问题的可证公平算法，并证明了任何公平算法必须具有该算法的时间复杂度，同时也证明了公平和非公平学习之间有强烈的界限。在一般情境中，本研究证明了公平性与 KWIK 学习模型的紧密联系，并提出了一种多项式时间复杂度的可证公平算法来解决线性上下文赌博问题。

May, 2016

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

保守型赌徒

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

基于资源限制的分层自适应上下文强化学习推荐算法

本文提出了一种分层自适应上下文匹配方法（HATCH），以在有预算限制的情况下学习上下文匹配策略，并利用上下文特征信息找到最佳的个性化推荐，实验结果证明了该方法的有效性和效率。

Apr, 2020