本研究调查了基于偏好的多臂赌博机和决斗赌博机的最新研究现状及其解决方法,关注于在序贯决策过程中进行的数据反馈和学习,并且考虑了强度信息不可用的情况。
Jul, 2018
提出了减少德杰斯特拉竞标者问题 (Dueling Bandits) 到传统 (随机) 多臂赌博机问题 (Multi-Armed Bandits) 的算法,我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。
May, 2014
提出了一种解决多人多臂赌博机问题的分布式算法,利用上置信区间和分布式优化技术,解决了现实世界应用中玩家仅能访问动态局部子集的问题,并获得了接近最优的后悔率。
Dec, 2022
提出了一种新的 dueling bandits 模型来解决在线排名器评估中的探索 - 开发权衡问题,该模型使用对于无限数量的排名器的同时比较。实验结果表明,该算法与现有的最先进的 dueling bandit 算法相比,表现出了数量级的性能提升。
Aug, 2016
本文介绍了一种新的解决 K-armed dueling bandit 问题的方法,其扩展了 Upper Confidence Bound 算法并证明了有限时间的遗憾度为 O(log t)。 经实验结果证实,与现有技术相比,该方法在信息检索中取得了显着的优势。
Dec, 2013
研究了多臂赌博问题中的探索和利用问题,并提出了一种基于非均匀采样策略的算法,用于解决带有分段稳定随机赌博问题的情况,并实现了对于超宽带通道选择的模拟测试。
May, 2012
对抗性多对决赌博机中的后悔最小化问题进行了介绍,并引入了一种新算法 MiDEX(Multi Dueling EXP3)来学习来自成对子集选择模型的偏好反馈。证明了 MiDEX 相对于从 K 个臂中选择 Borda 赢家的累计 T 轮后悔的期望上界为 O ((KlogK)^{1/3} T^{2/3}),同时证明了在该设置下预期后悔的下界为 Ω(K^{1/3} T^{2/3}),表明我们提出的算法是接近最优的。
Jun, 2024
设计了第一个能够在任意变化的环境中工作的多人赌博算法,其中武器的损失甚至可能是由对手选择的,同时解决了 Rosenski、Shamir 和 Szlak(2016 年)提出的一个悬而未决的问题。
Feb, 2019
通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系,本文的两个主要贡献是提供了一类算法的次线性遗憾界,包括 Exp3 算法作为特例,并引入了一类新的对抗多臂赌博算法,借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型,这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施,我们进行了数值实验,重点关注随机赌博的情况。
Oct, 2023
本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题,该算法对每个网络节点(用户)分配了一个 Bandit 算法,并允许其与相邻节点共享信息,与传统 Contextual Bandit 方法相比,实验结果表明该算法在预测性能方面有显著提高。
Jun, 2013