基于图形的情境随机赌博机

May, 2023

Stochastic Contextual Bandits with Graph-based Contexts

Jittat Fakcharoenphol, Chayutpong Prompak

TL;DR该研究提出了一种基于随机上下文赌博问题的在线图预测的广义方法，将顶点上的未知标签与奖励分布相结合，提出了基于线性图和树的算法，有效地解决了图标签预测中的实例困难问题，并提出了一种计算简单，易于分析的算法框架来处理更一般的图。

Abstract

We naturally generalize the on-line graph prediction problem to a version of stochastic contextual bandit problems where contexts are vertices in a graph and the structure of the graph provides information on the

on-line graph prediction stochastic contextual bandit problems graph label prediction regret bound random spanning tree reduction

发现论文，激发创造

具有图反馈的随机上下文臂机：从独立数到 MAS 数

我们研究了具有图反馈的背景下的情景赌博问题，发现了相关概念与学习限制的关系，并提供了优化算法，以及表明针对情景赌博问题的统计复杂性在许多情况下可以由最大无环子图数完全刻画。

Feb, 2024

带有侧观测的随机图赌博学习

提出一种算法来解决具有图反馈和一般函数空间的随机情境赌博问题，该算法适应底层图结构和奖励差距，为这种随机情境设定提供了一个依赖于差距的上界，改进了遗留问题，并通过数值实验验证了计算效率和 regret 上界的有效性，推动了具有图反馈的随机情境赌博领域的发展。

Aug, 2023

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

非参数随机情境臂机

探讨 K-armed bandit 问题下的 noisy reward，提出了一种简单实用的算法（kNN-UCB），并得到了紧密的 top-arm identification 和 sublinear regret 边界，并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界，同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。

Jan, 2018

高效上下文强化学习与不完全信息反馈图

通过在线回归将参数图学习与无信息判定相结合，该研究开发了第一个可用于无信息设置的情境算法，并证明使用对数损失可以获得有利的后悔保证。

Feb, 2024

使用交叉学习的上下文策略带

本研究提出了一种解决上下文相关性及跨上下文学习问题的算法，可在拍卖等有战略设置中实现更高性能的结果。

Sep, 2018

具有自适应上下文的因果情境助推

我们研究了一种因果背景下的情境式赌博问题，学习者基于由其选择的初始干预进行上下文选择。在每一轮开始时，学习者根据其选择的初始行动选择一个随机上下文并获得奖励。通过引入一个与实例相关的因果参数 λ 来实现上界，并且通过使用凸优化来解决赌博探索问题。我们的实验结果验证了我们的理论，并在项目的 GitHub 存储库上发布了我们的代码。

May, 2024

可上下文化的随机臂赌博机

介绍了一个在上下文赌博问题中近似最优样本复杂度，并且是这个问题的 PAC 设置和在线设置中的最小化遗憾。

Jun, 2023

带阶段约束的情境强化学习

我们在上下文感知强化学习中研究了阶段限制的情况，并提出了一种上界置信区间算法来平衡探索和约束满足，同时证明了其遗憾界。

Jan, 2024

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020