驯服非平稳赌博机：一种贝叶斯方法

NIPSJul, 2017

驯服非平稳赌博机：一种贝叶斯方法

Taming Non-stationary Bandits: A Bayesian Approach

Vishnu Raj, Sheetal Kalyani

TL;DR针对非平稳环境下的多臂赌博问题，提出了一种基于贝叶斯方法的 Thompson Sampling 变体，对其进行了系统性降低先前观测效果的描述，通过增加贝叶斯采样的功利值提供了最优化算法的乐观版本，并进行了广泛的实证分析和与各种算法的比较研究。

Abstract

We consider the multi armed bandit problem in non-stationary environments. Based on the bayesian method, we propose a variant of thompson samplin

multi armed bandit problem bayesian method thompson sampling discounting empirical analysis

发现论文，激发创造

非静态贪婪问题的折扣汤普森采样

本文提出了一种新的算法 Discounted Thompson Sampling (DS-TS) with Gaussian priors，用于解决非平稳多臂赌博机问题，并分析了算法在不同情况下的表现和 upper bound of regret。

May, 2023

奖励驱动的非平稳随机赌博机的探索

为具有非平稳奖励分布的多臂赌博问题研究激励探索，其中玩家探索贪心选择以外的臂部时获得补偿，并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境：突变和连续变化，并提出相应的激励探索算法。我们表明，所提出的算法在时间上实现了亚线性的遗憾和补偿，从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。

Mar, 2024

多臂老虎机实验中的适应性和混淆

本篇论文研究以往文献未解决的问题，提出了一种新的基于 Thompson 采样的算法（被称为去混淆 Thompson 采样），该算法在易于稳定的情况下发挥优越效率，在困难的不稳定情况下也表现出出人意料的韧性，可在具有不稳定上下文影响的武器性能的智能探险算法中应用。

Feb, 2022

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

恢复强盗

研究回收匪徒问题，使用高斯过程解决估计和规划问题，包括悔恨界限和计算效率的讨论。

Oct, 2019

非周期性不安定赌博机中的汤普森抽样

本文研究了在未知奖励分布下使用 Thompson 采样算法来解决不断变化的赌博机问题，证明了一种子线性的，O (sqrt (T) log T) 的遗憾上限，并将算法测试在了一个动态信道接入问题的模拟中，实证结果与理论上限一致。

Oct, 2019

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012

具有时间性的多臂赌博机问题中汤普森抽样的遗憾界

本文从学习的角度分析了未知参数情况下的时序不息不静赌博机问题，在采用泰普斯抽样的情况下考虑了一个通用策略映射作为竞争者，证明了贝叶斯遗憾的 k 倍增长上限。本文的竞争对手足够灵活，可以表示各种基准，包括最佳固定操作策略，最优策略，惠特尔指数策略或近视策略。同时，还提供了支持理论发现的实证结果。

May, 2019

一种风险厌恶的非平稳随机多臂赌博机框架

提出了一种在非平稳环境中运行的自适应风险感知策略框架，该框架结合了文献中普遍存在的各种风险度量标准，将多臂赌博算法的多个系列映射到风险感知的设置中，并将重启贝叶斯在线变点检测算法和（可调节的）强制探索策略结合在一起，以检测本地（针对每个臂）的切换，并提供有限时间的理论保证和渐进性的损失界限，性能在合成和现实环境中均优于现有状态下的技术，并在风险感知和非平稳性方面高效执行。

Oct, 2023