加权赌博机或：赌博机如何学习扭曲的非预期价值

AAAINov, 2016

加权赌博机或：赌博机如何学习扭曲的非预期价值

Weighted bandits or: How bandits learn distorted values that are not expected

Aditya Gopalan, L.A. Prashanth, Michael Fu, Steve Marcus

TL;DR文章研究在多臂老虎机问题中引入代价扭曲的概率分布，提出了一些算法，并证明了这些算法在一定条件下能够达到较好的效果，同时给出了相关的理论分析和数值模拟。

Abstract

Motivated by models of human decision making proposed to explain commonly observed deviations from conventional expected value preferences, we formulate two stochastic multi-armed bandit problems with distorted probabilities on the cost distributions: the classic $K$-armed bandit and t

multi-armed bandit upper confidence bound cost distortions regret analysis distortion-aware learning

发现论文，激发创造

Lipschitz Bandits: 遗憾下限和最优算法

研究了随机多臂赌博问题中期望奖励是武器的 Lipschitz 函数的情况，提出了两种算法 OSLB 和 CKL-UCB，并衍生出上限，针对连续武器集合的情况建议首先离散化行动空间再应用算法，同时也考虑到了具有类似性质的背景下文本字形赌博。

May, 2014

线性赌博机误设

本研究考虑了线性多臂老虎机问题中的在线学习问题，并提出了一种新的算法，该算法包括一个线性假设检验和 OFUL 或 UCB 算法的决策。该算法在完全线性情况下表现出 OFUL 的良好遗憾性能，在存在不稀疏偏差性质的错误规范模型上避免了线性遗憾现象，并且在综合数据实验中得到了一致的支持。

Apr, 2017

单模臂：遗憾下限和最优算法

研究了随机多臂老虎机问题，通过一个单峰函数来表示不完全有序的臂的期望奖励。对于离散和连续臂的情况，分别提出了 OSUB 和 UCB 算法，并得到了渐进的上下界和提高性能的实验结果。

May, 2014

广义高斯多臂赌博机中的人类决策建模

本文提出了一个形式化的模型，该模型可以最大化人类决策过程在多臂赌博问题中的表现，并使用贝叶斯推理估算回报值，得出了对多臂赌博问题的标准解决方案，以及在图中的解决方案，其中开发了 UCL 算法，它实现了对数累积期望遗憾并表现出良好的性能。

Jul, 2013

具有多次游戏和预算限制的多臂赌博机

研究多臂赌博问题下的多次试验和预算约束的拓展，提出上置信区间和 Exp3 算法的具体实现及其性能分析。

Nov, 2017

基于数据驱动的上界置信度在重尾赌博机上的近优遗憾

本文提出了一种分布无关、数据驱动的上置信界（UCB）算法，结合最近发展的重新抽样中位数法（RMM）方法，对称奖励分布的研究中生成近乎最优的后悔边界，即使是重尾分布。

Jun, 2024

非平稳环境下的加权线性赌博机

该研究利用 D-LinUCB 算法解决了随机线性 bandit 模型中的非平稳线性回归模型，通过使用加权最小二乘估计器进行序列预测，同时提供了理论保证和实验表现。

Sep, 2019

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

针对随机情境对决赌徒的方差感知后悔界限

本研究提出了一种基于广义线性模型的上下文对决算法，该算法在计算效率和方差感知遗憾边界方面有优势，并通过实验验证了其优于以往无方差算法的优点。

Oct, 2023

优化置信区间上界算法：改进有限臂赌博机的遗憾

提出了一种基于 UCB 并具有适当的置信参数平衡风险和过度乐观代价的随机有限臂老虎机算法，同时具有最优问题依赖性遗憾和最坏情况遗憾。

Jul, 2015