GBOSE: 广义臂匪正交半参数估计

Jan, 2023

GBOSE: Generalized Bandit Orthogonalized Semiparametric Estimation

Mubarrat Chowdhury, Elkhan Ismayilzada, Khalequzzaman Sayem, Gi-Soo Kim

TL;DR本文提出了一种基于非参数奖励模型的多臂赌博算法，具有最先进的上限复杂度，相对于已有的半参数算法，提供了明确的行动选择分布，并要求更少的计算，这个算法在涉及到两个以上臂的情况下，其上限遗憾的复杂度最优，并提供模拟结果验证其方法卓越性。

Abstract

In sequential decision-making scenarios i.e., mobile health recommendation systems revenue management contextual multi-armed bandit algorithms have garnered attention for their performance. But most of the existing algorithms are built on the assumption of a strictly parametric reward

multi-armed bandit algorithms parametric and semi-parametric reward models state-of-the-art complexity action selection distribution regret

发现论文，激发创造

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

组合随机贪心赌博机

我们提出了一种新颖的组合性随机贪婪的赌博算法 (SGB)，用于组合多臂赌博问题。该算法在没有额外信息的情况下，仅观察到每个时间步 t∈[T] 时选择的一组 n 个臂的联合奖励。SGB 采用了一种优化的随机探索再确认的方法，并且专门设计用于具有大量基本臂的情景。与现有方法在每个选择步骤中都会探索整个未选择基本臂集不同，我们的 SGB 算法仅对未选择的臂进行优化比例的抽样，并从该子集中选择行动。我们证明了对于单调随机次模性奖励，我们的算法实现了 (1-1/e) 的遗憾边界，其复杂度为 O (n^(1/3) k^(2/3) T^(2/3) log (T)^(2/3))，在基数约束 k 方面优于最先进的方法。此外，我们在在线受限社交影响最大化的背景下对我们的算法进行实证评估。我们的结果表明，我们提出的方法始终优于其他算法，并且随着 k 的增长，性能差距也增大。

Dec, 2023

更多适应性算法用于对抗式赌博机

提出了一种新颖的算法，采用乐观性和适应性技术，结合在线镜像下降框架和特殊的对数障碍正则化器来解决对抗性多臂赌博机问题和组合半赌博问题，并在提高先前工作的同时，取得了多种新的数据依赖性遗憾界。

Jan, 2018

在随机和对抗半臂匪中的最优解决方案

开发出新的半强化学习算法，不需要先验信息，可同时在随机环境和对抗环境下获得对数级和平方级的遗憾，并通过在合成数据上的实验证明了其性能的一致性和优越性。

Jan, 2019

单模臂：遗憾下限和最优算法

研究了随机多臂老虎机问题，通过一个单峰函数来表示不完全有序的臂的期望奖励。对于离散和连续臂的情况，分别提出了 OSUB 和 UCB 算法，并得到了渐进的上下界和提高性能的实验结果。

May, 2014

广义高斯多臂赌博机中的人类决策建模

本文提出了一个形式化的模型，该模型可以最大化人类决策过程在多臂赌博问题中的表现，并使用贝叶斯推理估算回报值，得出了对多臂赌博问题的标准解决方案，以及在图中的解决方案，其中开发了 UCL 算法，它实现了对数累积期望遗憾并表现出良好的性能。

Jul, 2013

带汇总反馈的高斯过程赌博机

提出了用高斯过程进行连续赌博机问题的最优解优化算法，适用于在固定预算下推荐最佳赌博机并获取平均回报。在提供集合平均值等聚合反馈而精确奖励成本较高或不可能时使用，通过高斯过程约束奖励函数集合，并在节点之间自适应构建树状结构。

Dec, 2021

带有未知变量的组合网络优化：具有线性回报的多臂赌博机

本文提出了一种适用于多臂赌博机问题的解决方案，只需要以线性时间复杂度存储未知参数，可以处理一般的掌握参数相关性的问题，并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。

Nov, 2010

具有因果相关奖励的分段静态组合半匹配波尔制

本研究探讨具有因果关系奖励的分段稳定组合半强盗问题，在我们的非稳态环境中，基本臂的分布变化，奖励之间的因果关系，或者二者同时改变了奖励生成过程。我们提出的算法在复杂环境中具备优越的应用性能。

Jul, 2023

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008