重新审视 Woodroofe 的单臂匪徒问题

Sep, 2009

重新审视 Woodroofe 的单臂匪徒问题

Woodroofe's one-armed bandit problem revisited

Alexander Goldenshluger, Assaf Zeevi

TL;DR研究了采样分布依赖于一个参数和一个协变量的两个总体的顺序采样问题，并在极小极大的背景下发展了速率最优策略，哪里遗憾以及从较劣的总体进行采样的速率可以是有限的或随着时间变化而以不同的速率增长，这取决于协变量分布的 “本地” 特性。

Abstract

We consider the one-armed bandit problem of Woodroofe [J. Amer. Statist. Assoc. 74 (1979) 799--806], which involves sequential sampling from two populations: one whose characteristics are known, and one which dep

one-armed bandit problem sequential sampling minimax setting regret covariate distribution

发现论文，激发创造

具有协变量的非参数贝叶斯赌博机

本文对一类赌博机问题进行了研究，提出了一种新算法，结合非参数统计和传统赌博机算法方法，在最大化累积预期收益的目标下，取得了与理论下界相同的性能，同时具有良好的适应性。

Mar, 2010

带有协变量的多臂老虎机问题

本研究提出了一种新的策略 abse 用于动态多臂赌博问题中，其可以将全局问题自适应地拆分为静态多臂赌博问题，同时其在静态多臂赌博问题中的后继消除策略的遗憾界更为严格，且在动态问题中其拥有最小极小遗憾界。

Oct, 2011

无限臂老虎机的简单遗憾

本文针对无穷臂随机赌博机问题，提出一种算法用以最小化简单损失，并扩展到多种情况下，如未知时间跨度等。

May, 2015

有重尾巴的赌徒

本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题，通过定义基于更精细的估计器的采样策略，如截断经验均值、Catoni 的 M - 估计和均值中位数估计器，证明了二阶矩（有限方差）足以获得与次高斯奖励分布同阶的悔恨界。

Sep, 2012

恢复强盗

研究回收匪徒问题，使用高斯过程解决估计和规划问题，包括悔恨界限和计算效率的讨论。

Oct, 2019

带边观察的赌徒问题

探讨传统的两臂赌博问题的扩展，其中决策者在选择拉动哪个手臂之前可以访问一些信息，在不同的设置中找到能够达到可接受水平的规则和构造渐近最优自适应方案以实现这些规则。

Jan, 2005

最大 - 最小分组赌博机

介绍了一种多臂赌博机问题，称为最大最小分组赌博机问题，其中将赌臂分组，并旨在找到最差赌臂平均回报最高的组；提出两种基于连续淘汰和鲁棒优化的算法，并导出保证找到最优或接近最优组的样本数的上界，以及一个独立于算法的下界。探讨了各种相关情况下上下限的紧度以及导出统一紧限的困难。

Nov, 2021

保守型赌徒

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

带有未知变量的组合网络优化：具有线性回报的多臂赌博机

本文提出了一种适用于多臂赌博机问题的解决方案，只需要以线性时间复杂度存储未知参数，可以处理一般的掌握参数相关性的问题，并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。

Nov, 2010

有限臂结构赌博机的有界遗憾

研究了一种新型的 K 武装强盗问题，介绍了一种针对这一问题的新算法，并展示了在特定条件下可以实现有限的预期累计遗憾，同时提供了依赖于问题的累计遗憾下限，显示出至少在某些特殊情况下，新算法是近乎最优的。

Nov, 2014