基于背包的预算受限多臂赌博机最优策略 | BriefGPT - AI 论文速递

Apr, 2012

基于背包的预算受限多臂赌博机最优策略

Knapsack based Optimal Policies for Budget-Limited Multi-Armed Bandits

Long Tran-Thanh, Archie Chapman, Alex Rogers, Nicholas R. Jennings

TL;DR对于受预算限制的多臂赌博机问题，本论文提出了两种拉动策略 KUBE 和分数 KUBE，并证明了两种策略的遗憾具有对数上限，且这个上限是渐近最优的。

Abstract

In budget-limited multi-armed bandit (MAB) problems, the learner's actions are costly and constrained by a fixed budget. Consequently, an optimal

multi-armed bandit exploitation policy budget-limited kube regret

发现论文，激发创造

具有不对称置信区间的预算多臂赌博机

本文研究了随机预算多臂赌博问题，并提出了一种名为 ω-UCB 的新的上置信界（UCB）采样策略，该策略使用了不对称置信区间，并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。

Jun, 2023

带背包的赌博机

介绍了一种称为带背包的赌徒问题的通用模型，结合了随机整数规划和在线学习的方面。该论文提出了两种算法来解决这个问题，它们的报酬接近于信息论上的最优解，但同时带背包的赌徒问题相比传统的赌徒问题更具挑战性。

May, 2013

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

具有多次游戏和预算限制的多臂赌博机

研究多臂赌博问题下的多次试验和预算约束的拓展，提出上置信区间和 Exp3 算法的具体实现及其性能分析。

Nov, 2017

本文探讨了多臂老虎机框架及其中的经典框架问题，引出了老化多臂老虎机框架，探讨了在该框架下的算法及理论保证，并提出了其在实际应用当中的意义。

Feb, 2017

多臂赌博机中的探索与利用分离

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

将 Cournot 博弈建模为多智能体多臂赌博机

本文探讨了使用多代理多臂老虎机 (MA-MAB) 设置对重复 Cournot 奥利格普利博弈进行建模的方法，并发现 E - 贪心方法是一种比传统 MAB 方法更可行的学习机制。同时，本文提出了两种利用有序行动空间的新方法，即 E - 贪心 + HL 和 E - 贪心 + EL，以优化探索，并使用计算机模拟研究了各种均衡的出现，并进行了联合累积损失的实证分析。

Jan, 2022

未观测到代理奖励和完全知识代理的重复委托代理博弈

本研究在多臂赌博 (MAB) 框架下研究重复的主体 - 代理博弈场景，在代理人具有完美知识的情况下，构建了一个估计代理人期望奖励的估计器，并设计了一个低遗憾策略，为主体策略提供了指导，同时在协作交通规划等领域具有一定的应用前景。

Apr, 2023