一种风险厌恶的非平稳随机多臂赌博机框架

Oct, 2023

一种风险厌恶的非平稳随机多臂赌博机框架

A Risk-Averse Framework for Non-Stationary Stochastic Multi-Armed Bandits

Reda Alami, Mohammed Mahfoud, Mastane Achab

TL;DR提出了一种在非平稳环境中运行的自适应风险感知策略框架，该框架结合了文献中普遍存在的各种风险度量标准，将多臂赌博算法的多个系列映射到风险感知的设置中，并将重启贝叶斯在线变点检测算法和（可调节的）强制探索策略结合在一起，以检测本地（针对每个臂）的切换，并提供有限时间的理论保证和渐进性的损失界限，性能在合成和现实环境中均优于现有状态下的技术，并在风险感知和非平稳性方面高效执行。

Abstract

In a typical stochastic multi-armed bandit problem, the objective is often to maximize the expected sum of rewards over some time horizon $T$. While the choice of a strategy that accomplishes that is optimal with no additional information, it is no longer the case when provided additio

发现论文，激发创造

多臂赌博机中的风险规避

介绍了基于风险规避原则的随机多臂赌博机的新场景, 使用方差作为风险度量, 提出了两种新算法, 并调研了它们的理论保证和初步实证结果.

Jan, 2013

驯服非平稳赌博机：一种贝叶斯方法

针对非平稳环境下的多臂赌博问题，提出了一种基于贝叶斯方法的 Thompson Sampling 变体，对其进行了系统性降低先前观测效果的描述，通过增加贝叶斯采样的功利值提供了最优化算法的乐观版本，并进行了广泛的实证分析和与各种算法的比较研究。

Jul, 2017

非平稳环境下高效应对背景干扰的Bandit算法

本研究开发了多种高效的上下文推断算法，为非平稳环境提供了有效的解决方案，具有动态适应分布变化的能力，同时通过对各种标准回归进行分析，证明了在时间和空间成本上都能达到最优的效果。

Aug, 2017

针对分段平稳赌博机的变化检测近乎最优自适应程序

通过结合经典的UCB算法和简单的变化检测组件，我们提出了一种称为M-UCB的算法，可以在未知时间步骤中检测和适应变化，并在多臂赌博机问题中实现近乎最优的风险界。通过在公共数据集上进行数值实验，我们还展示了该算法的卓越性能。

Feb, 2018

非固定奖励分布和延迟反馈过程的多臂赌博策略

本文研究了多臂赌博策略在非静态随机回报函数和延迟反馈的情况下的性能，并针对非静态回报函数和延迟反馈的情况提出了一种自适应技术（AG1），在在线电子商务平台上进行了多臂赌博模拟。结果表明，相对于传统的多臂赌博策略，在后悔最小化的情况下，自适应技术表现更优秀。

Feb, 2019

对漂移进行对冲：在非稳态环境下学习优化

介绍针对非静态赌博机环境的最新数据驱动决策算法，采用了随机和对手式学习算法的非传统结合方法，通过滑动窗口-置信界算法，针对各种非静态赌博机问题实现了最优动态遗憾边界，并通过数字实验验证了算法的超越性能。

Mar, 2019

非平稳线性赌臂问题的简单解法

本文研究了非平稳线性臂问题，提出了一种基于重启策略的算法以平衡利用和探索，并证明了该算法的动态遗憾值，同时还解决了现有算法中的严重技术缺陷问题。

Mar, 2021

风险感知多臂老虎机调查

本综述分析了在多臂赌博机情境下，风险度量的各种措施及其特性、各种风险度量的集中不等式、风险感知的赌博问题，包括在遗憾最小化设置中的算法和在最佳臂识别设置中的纯探索问题，以及未来研究的挑战和肥沃领域。

May, 2022

非平稳潜在自回归赌博算法

我们考虑具有非平稳收益的随机多臂赌博问题，提出了一个称为潜在AR赌博的新环境，在这个环境中，臂的平均收益随时间变化是由未知的、潜在的、自回归（AR）阶数为k的状态引起的。针对已知的AR阶数k，我们提出了一个算法，在这种情况下实现了O(k√T)的遗憾。在多个非平稳环境中，我们的算法在实证上优于标准UCB，即使k被错误估计。

Feb, 2024

奖励驱动的非平稳随机赌博机的探索

为具有非平稳奖励分布的多臂赌博问题研究激励探索，其中玩家探索贪心选择以外的臂部时获得补偿，并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境：突变和连续变化，并提出相应的激励探索算法。我们表明，所提出的算法在时间上实现了亚线性的遗憾和补偿，从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。

Mar, 2024