非固定奖励分布和延迟反馈过程的多臂赌博策略

Feb, 2019

非固定奖励分布和延迟反馈过程的多臂赌博策略

Multi-Armed Bandit Strategies for Non-Stationary Reward Distributions and Delayed Feedback Processes

Larkin Liu, Richard Downe, Joshua Reid

TL;DR本文研究了多臂赌博策略在非静态随机回报函数和延迟反馈的情况下的性能，并针对非静态回报函数和延迟反馈的情况提出了一种自适应技术（AG1），在在线电子商务平台上进行了多臂赌博模拟。结果表明，相对于传统的多臂赌博策略，在后悔最小化的情况下，自适应技术表现更优秀。

Abstract

A survey is performed of various multi-armed bandit (MAB) strategies in order to examine their performance in circumstances exhibiting non-stationary stochastic reward functions in conjunction with →

发现论文，激发创造

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

腐败赌徒

本文探讨了多臂老虎机框架及其中的经典框架问题，引出了老化多臂老虎机框架，探讨了在该框架下的算法及理论保证，并提出了其在实际应用当中的意义。

Feb, 2017

驯服非平稳赌博机：一种贝叶斯方法

针对非平稳环境下的多臂赌博问题，提出了一种基于贝叶斯方法的 Thompson Sampling 变体，对其进行了系统性降低先前观测效果的描述，通过增加贝叶斯采样的功利值提供了最优化算法的乐观版本，并进行了广泛的实证分析和与各种算法的比较研究。

Jul, 2017

延迟复合匿名反馈的随机赌博机

探索一种新的多臂赌博问题（MAB）的设置，其中给出了随机延迟复合匿名反馈（SDCAF）的难点，使用基于UCB算法的相位扩展提出了两种算法，并通过遗憾分析显示出两种算法的亚线性理论保证。

Oct, 2019

具有不受限制的延迟分布的随机多臂赌博机

该研究探讨具有随机延迟的随机多臂赌博问题，在考虑了奖励相关延迟和奖励无关延迟两种情况下，提出了接近最优的算法，并在延迟分布的分位数上增加了附加依赖性，而不需要假设延迟分布来自任何参数化的分布族，还允许无限延迟的情况。

Jun, 2021

具有时间分区奖励的多臂赌博机问题：部分反馈的重要性

论文研究了一种新颖的赌臂算法，名为具有时间分区奖励的多臂赌博机（TP-MAB），解决了工业在线应用中数据逐步变得可用的问题，并通过提供两种算法解决TP-MAB问题，证明了该算法与当今最好的延迟反馈赌臂算法相比较而言，在典型情况下，效果更好。

Jun, 2022

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022

非静态贪婪问题的折扣汤普森采样

本文提出了一种新的算法 Discounted Thompson Sampling (DS-TS) with Gaussian priors，用于解决非平稳多臂赌博机问题，并分析了算法在不同情况下的表现和 upper bound of regret。

May, 2023

一种风险厌恶的非平稳随机多臂赌博机框架

提出了一种在非平稳环境中运行的自适应风险感知策略框架，该框架结合了文献中普遍存在的各种风险度量标准，将多臂赌博算法的多个系列映射到风险感知的设置中，并将重启贝叶斯在线变点检测算法和（可调节的）强制探索策略结合在一起，以检测本地（针对每个臂）的切换，并提供有限时间的理论保证和渐进性的损失界限，性能在合成和现实环境中均优于现有状态下的技术，并在风险感知和非平稳性方面高效执行。

Oct, 2023

奖励驱动的非平稳随机赌博机的探索

为具有非平稳奖励分布的多臂赌博问题研究激励探索，其中玩家探索贪心选择以外的臂部时获得补偿，并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境：突变和连续变化，并提出相应的激励探索算法。我们表明，所提出的算法在时间上实现了亚线性的遗憾和补偿，从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。

Mar, 2024