利用鞍点边界来改进随机线性赌臂算法的新算法

Sep, 2023

利用鞍点边界来改进随机线性赌臂算法的新算法

Improved Algorithms for Stochastic Linear Bandits Using Tail Bounds for Martingale Mixtures

Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters

TL;DR我们提出了一种改进的算法，可保证在最坏情况下减少后悔，以解决随机线性强盗问题。

Abstract

We present improved algorithms with worst-case regret guarantees for the stochastic linear bandit problem. The widely used "optimism in the face of uncertainty" principle reduces a stochastic bandit problem to th

stochastic linear bandit problem optimism in the face of uncertainty confidence sequences regret guarantees adaptive martingale mixtures

发现论文，激发创造

随机赌博机中的遗憾分布：期望和尾部风险之间的最优权衡

研究了随机多臂赌博问题中期望值和尾部风险之间的权衡，提出了一种新的策略以实现任何遗憾阈值的最优遗憾尾部概率，该策略在最坏情况下和实例相关情况下分别实现了 $\alpha$- 最优和 $\beta$- 一致，探究了最差情况和实例相关情况下的遗憾期望和遗憾尾部风险之间的权衡，同时表明在知道规划时间范围时，尾部风险可以降低。

Apr, 2023

具有重尾收益的线性随机赌博机的几乎最优算法

本研究提出一种创新的算法来解决具有重尾收益的线性随机赌博机问题，并证明了算法的最优性。

Oct, 2018

优化置信区间上界算法：改进有限臂赌博机的遗憾

提出了一种基于 UCB 并具有适当的置信参数平衡风险和过度乐观代价的随机有限臂老虎机算法，同时具有最优问题依赖性遗憾和最坏情况遗憾。

Jul, 2015

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

批处理赌博机的遗憾界

本文提出了一种简单有效的算法来解决批处理随机多臂赌博机和线性随机多臂赌博机问题，这些算法能够通过只使用对数数量的批次实现最优期望遗憾界，此外，文章还首次研究了批处理对抗性多臂赌博机问题，并发现了任何算法的最佳遗憾界（对数因子除外）的预定批处理大小。

Oct, 2019

改进线性逻辑模型的置信区间界限及在线性赌博机中的应用

本文中，我们基于对 logistic 损失的自共轭分析提出了改进的固定设计置信区间用于线性 logistic 模型，避免了对所有臂奖励分布的最小方差 $\kappa$ 的直接依赖。我们提供了两个应用程序，以及一个下界，证明了性能保证的最新进展。

Nov, 2020

基于方差的线性赌博机和线性混合 MDP 置信区间的改进

本文提出了一种新的方差感知置信集，用于线性 bandits 和线性混合马尔可夫决策过程（MDPs）中，我们得到了与方差和维度相关，但不显式依赖于循环次数 k 的后悔上限，并获得了史上首个仅在强化学习中呈对数比例的后悔上限，这三种技术思想可能是独立感兴趣的应用。

Jan, 2021

改进后的逻辑回归赌博机算法

本研究提出了一种针对逻辑回归赌博机的新方法，避免了先前算法中会导致较差实验结果的一种问题，并获得了较紧的后果界限，这种算法不依赖于制定决策时的尺寸。

Feb, 2020

乐观主义的终结？有限臂线性赌博机的渐近分析

这篇研究分析了随机线性赌博机在实例依赖性遗憾方面的异步情况，并得出了最优性的上下界匹配结果，表明基于乐观主义或汤普森抽样的算法将永远无法达到最优速度，甚至在非常简单的情况下也可能与最优解相差无几。

Oct, 2016

有重尾巴的赌徒

本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题，通过定义基于更精细的估计器的采样策略，如截断经验均值、Catoni 的 M - 估计和均值中位数估计器，证明了二阶矩（有限方差）足以获得与次高斯奖励分布同阶的悔恨界。

Sep, 2012