AdaLinUCB: 基于上下文的赌博机的机会学习

IJCAIFeb, 2019

AdaLinUCB: 基于上下文的赌博机的机会学习

AdaLinUCB: Opportunistic Learning for Contextual Bandits

Xueying Guo, Xiaoxiao Wang, Xin Liu

TL;DR本文主要研究机遇上下文奖励问题，提出了自适应上界置信区间算法（AdaLinUCB），并实现了 O（（log T ）^ 2）的问题相关遗憾上界证明。

Abstract

In this paper, we propose and study opportunistic contextual bandits - a special case of contextual bandits where the exploration cost varies under different environmental conditions, such as network load or retu

contextual bandits exploration-exploitation trade-off adalinucb linear payoffs regret upper bound

发现论文，激发创造

机会主义赌博机的自适应勘探和开发平衡

提出了一种新型武器 - 机会主义强盗，研究了不同环境条件下拉取次优武器的损失，提出了一种自适应上置信界算法（AdaUCB）来平衡开采 - 探索的权衡，证明了 AdaUCB 的性能优于传统算法，并在合成数据和真实世界的实验结果中得到了验证。

Sep, 2017

具有多样化上下文的随机线性情境策略带

本文研究了上下文多样性对随机线性情境赌博机的影响，提出了 LinUCB-d 算法并分析其遗憾性能，理论结果表明，在多样性上下文的假设下，LinUCB-d 的期望累积遗憾被一个常数限制，改善了以往对 LinUCB 的理解并加强了其性能保证。

Mar, 2020

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

具有对数或次线性遗憾的约束上下文臂机算法

本文对具有预算和时间限制的约束情境赌博问题展开了研究，提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。

Apr, 2015

赌博机中渐进式保守探索的算法改进

本文研究在线学习算法如何在现实应用中优化基线策略并介绍了一种新的基于 Conservative Constrained LinUCB 算法的解决方案，并在多个合成和真实世界的问题中超越了现有的保守乐队算法。

Feb, 2020

基于上置信界探索的神经上下文波段算法

我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题，它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界，证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。

Nov, 2019

上下文组合式波段臂策略在协商中的应用

提出了一种综合的公式，通过利用上下文组合多臂赌博机来解决对话中的各种问题，包括探索与开发困境和处理大范围行动空间。通过 NegUCB 方法，在回报函数没有约束的情况下，解决了部分观察和复杂回报函数的常见问题，并在三个对话任务上进行的实验证明了该方法的优越性。

Jun, 2024

线性上下文强化学习与混合回报：重温

在混合奖励设置下，我们研究了线性情境赌博问题，提出了适用于具有不同参数的各个臂传递奖励模型，并引入了新的探索系数的新算法 HyLinUCB，通过实验证明其在合成和真实数据集上的性能明显优于其他算法。

Jun, 2024

截断 LinUCB 算法用于随机线性赌臂问题

研究此论文中的上下文臂带，其中上下文是独立且恒定分布的 d 维随机向量，期望回报在臂参数和上下文中都是线性的；提出了一种截断版的 LinUCB 算法，称为 Tr-LinUCB，其在截断时间 S 之前遵循 LinUCB，在之后进行纯粹的开发，S=Cd log（T）时达到 O（d log（T））的遗憾，如果 S = d log（T）的某个升幂，则相对于最优解的损失是费用为 loglog（T）的乘法，这种对超调敏感的 Tr-LinUCB 算法的实用重要性。

Feb, 2022

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017