具有协变量的非参数贝叶斯赌博机

Mar, 2010

具有协变量的非参数贝叶斯赌博机

Nonparametric Bandits with Covariates

Philippe Rigollet, Assaf Zeevi

TL;DR本文对一类赌博机问题进行了研究，提出了一种新算法，结合非参数统计和传统赌博机算法方法，在最大化累积预期收益的目标下，取得了与理论下界相同的性能，同时具有良好的适应性。

Abstract

We consider a bandit problem which involves sequential sampling from two populations (arms). Each arm produces a noisy reward realization which depends on an observable random covariate. The goal is to maximize c

bandit problem sequential sampling reward optimization nonparametric statistics admissible policy

发现论文，激发创造

带有协变量的多臂老虎机问题

本研究提出了一种新的策略 abse 用于动态多臂赌博问题中，其可以将全局问题自适应地拆分为静态多臂赌博问题，同时其在静态多臂赌博问题中的后继消除策略的遗憾界更为严格，且在动态问题中其拥有最小极小遗憾界。

Oct, 2011

重新审视 Woodroofe 的单臂匪徒问题

研究了采样分布依赖于一个参数和一个协变量的两个总体的顺序采样问题，并在极小极大的背景下发展了速率最优策略，哪里遗憾以及从较劣的总体进行采样的速率可以是有限的或随着时间变化而以不同的速率增长，这取决于协变量分布的 “本地” 特性。

Sep, 2009

具有延迟奖励的上下文多臂赌博机的随机分配与非参数估计

研究带有协变量的多臂赌博问题，在可能存在奖励延迟的情况下，通过对延迟的概率分布进行一些温和假设，并使用适当的随机选择武器策略，证明了该策略的强一致性。

Feb, 2019

带有未知变量的组合网络优化：具有线性回报的多臂赌博机

本文提出了一种适用于多臂赌博机问题的解决方案，只需要以线性时间复杂度存储未知参数，可以处理一般的掌握参数相关性的问题，并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。

Nov, 2010

已知协方差的组合半赌博算法

介绍了一个基于线性回归的优化算法，用于解决组合随机半汉带问题中的依赖关系，分析证明其是最优的，并且推出了一个与被拉动手臂数的对数因子成比例的新的下界。

Dec, 2016

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

组合多臂赌博机的紧密下界

本研究探讨了组合多臂赌博的后悔下界，并证明了在所有光滑奖励函数下，这种下界都是合理的，并且根据 Merlis 和 Mannor（2019）提出的 Gini 加权平滑度参数确定单调奖励函数的下界。

Feb, 2020

有重尾巴的赌徒

本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题，通过定义基于更精细的估计器的采样策略，如截断经验均值、Catoni 的 M - 估计和均值中位数估计器，证明了二阶矩（有限方差）足以获得与次高斯奖励分布同阶的悔恨界。

Sep, 2012

针对具有无限奖励的多臂赌博机的分布式无感知、风险感知算法

本文研究一个选择 arm 的问题，它通过平衡固定预算下预期奖励和相关 CVaR 之间的线性组合来优化，同时提出了一类可证明上限的算法，并比较其在非 oblivious 算法中的误差边界与实际表现（数字化实验）的竞争性。

Jun, 2019

混淆预算因果强化学习

我们研究了在由基础因果图模拟的随机环境中学习 ' 好的 ' 干预的问题，其中 ' 好的 ' 干预是指最大化奖励的干预，在预定的预算限制下考虑非均匀成本的干预，我们提出了一种算法以在一般因果图中最小化累积遗憾，并开发了一种算法以在预算设置下最小化简单遗憾。我们的理论保证包括上界和下界，而实证评估结果表明，我们的算法优于现有技术。

Jan, 2024