- 流式随机多臂赌博机中的记忆 - 遗憾权衡理解
在 $P$ 次流式模型中研究随机多臂赌博机问题,通过设计一种算法,给出了关于 $m,n$ 和 $P$ 的最优遗憾度量的完整刻画,同时提出了一个上界和下界,结果在 $n$ 和 $P$ 方面具有紧密性。
- 具有相似臂的图反馈贝叶斯打赏
我们研究了具有图反馈的随机多臂赌博机问题,建立了这种新颖反馈结构的遗憾下界,并引入了两种基于 UCB 的算法:具有问题独立遗憾上界的 D-UCB 和具有问题相关上界的 C-UCB。借助相似性结构,我们还研究了臂的数量随时间增加的情况,并提供 - 线性高斯动态系统产 Generated 生的不相容 Bandit 问题
我们研究了连续状态空间中的不安宁赌博机问题,采用线性高斯动态系统生成的动作向量和状态向量的内积作为奖励,通过一种方法对每个动作的奖励进行预测,该方法通过线性组合先前观察到的奖励来预测每个动作的未来奖励。我们展示了无论先前选择的动作序列如何, - HELLINGER-UCB: 一种用于随机多臂赌博问题和推荐系统冷启动问题的新算法
我们研究了随机多臂赌博问题,提出了一种新的基于 Hellinger 距离的上界置信度算法 Hellinger-UCB,并通过数值实验证明其在有限时间范围内有效。我们将 Hellinger-UCB 算法应用于解决金融应用程序内容推荐系统的冷启 - 数据稀缺情况下信赖区域增强的数据困局可靠决策
在只有每个臂的单个样本的数据匮乏情况下,本研究展示了即使在这种情况下也可能找到与最优策略相竞争的策略,这为基于仅有少量样本进行可靠决策的场景开辟了道路。我们的分析揭示了离线决策中,随机策略可能比确定性策略显著优越。针对离线多臂赌博机,我们设 - 多臂赌博机中的可复制性是渐进自由的
研究论文的主题是关于可复现机器学习中的随机多臂赌博问题,介绍了一个确保算法行动序列不受数据集内固有随机性影响的可复现算法,同时提出了探索 - 执行算法和连续淘汰算法,并扩展了对线性赌博问题的应用。
- 多臂赌博机与战略代理的鲁棒和激励性算法
我们考虑了一种随机多臂赌博问题的变种,其中臂是可以改善奖励或吸收奖励的战略代理。我们设计了一种机制,以鼓励在平衡状态下实现最高水平的性能,并在非平衡情况下至少获得具有最高均值的诚实代理的收入。我们还确定了一类称为性能激励的 MAB 算法,它 - 一种风险厌恶的非平稳随机多臂赌博机框架
提出了一种在非平稳环境中运行的自适应风险感知策略框架,该框架结合了文献中普遍存在的各种风险度量标准,将多臂赌博算法的多个系列映射到风险感知的设置中,并将重启贝叶斯在线变点检测算法和(可调节的)强制探索策略结合在一起,以检测本地(针对每个臂) - ICML具有不受限制的延迟分布的随机多臂赌博机
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
- 恢复强盗
研究回收匪徒问题,使用高斯过程解决估计和规划问题,包括悔恨界限和计算效率的讨论。
- MM基于相关赌博机学习的快速毫米波波束对准
本文提出一种基于分层结构的波束对准算法 (HBA) 来降低毫米波通信系统中波束对准所需时间,该算法将波束对准问题转化为了随机多臂老虎机问题,并利用波束间的相关性来加速波束对准过程,同时通过加入信道波动先验知识来进一步加快波束对准过程。理论分 - IJCAI多臂老虎机中聚类和历史信息的最优利用
本研究研究了带有历史观测和预聚类武器的随机多臂赌博问题和情境赌博问题,并开发了一系列算法来有效地在在线探索阶段内合并这些离线信息并推导了它们的后悔界限,其中包括 META 算法,该算法在使用历史观测和聚类的算法和仅使用历史观测的算法之间有效 - 实现随机多臂赌博问题的公正性
研究公平多臂老虎机问题中学习与公平之间的相互作用,通过特定向量表示公平性约束,定义一个公平感知的后悔,通过两个参数刻画一个 Fair-SMAB 算法类,并提供一个公平保证,无论学习算法的选择是什么,都可以持续地适用。
- MM部分揭示单位区间图上的多臂赌博机
研究了具有相似性和不相似性的测臂的随机多臂赌博问题,并提出了一种基于在线汇总奖励观察结果的离线行动空间缩减及在线聚合的通用两步学习结构,旨在充分利用侧面信息的拓扑结构。验证了学习策略的计算效率和顺序最优性,无论是在行动空间大小还是时间长度上 - 疟疾政策干预的新型探索技术(NETs)
本文提出一种基于随机多臂老虎机问题的方法来寻找最优疟疾政策,并以高斯过程回归生成不同策略的政策空间,并引入了三种基于代理的策略以探索政策空间,该方法可为制定卫生政策的决策者提供有力的资源。
- 通过赌博反馈进行良好的手臂识别
提出了一种新的随机多臂老虎机问题称为好臂识别,在解决好臂识别过程中面临独特的置信度的探索 - 利用困境并为此提出了一种算法以最小化每个过程的样本数量,该算法在样本复杂度上达到了理论下限并已通过实验得到验证。
- 多人博弈 -- 音乐椅子方法
本研究提出了两种无需通信的算法 Musical Chairs 和 Dynamic Musical Chairs 来解决多人博弈中的多臂赌博机问题,其中玩家可能发生碰撞,但不会获得奖励。这些算法有着恒定和次线性的遗憾率,且不需要先验知识,为这 - 差分隐私多臂赌博机算法
本研究提出的隐私保护算法在解决随机多臂赌博机问题时,相比之前的成果取得了较大的进展。算法可以保证最优遗憾率 O (Ɛ−1+logT), 通过实验证实了理论界和实践界之间的一致性。
- 有重尾巴的赌徒
本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题,通过定义基于更精细的估计器的采样策略,如截断经验均值、Catoni 的 M - 估计和均值中位数估计器,证明了二阶矩(有限方差)足以获得与次高斯奖励分布同阶的悔恨界。
- 汤普森抽样:渐进最优的有限时间分析
本文针对伯努利回报情况,首次提供匹配 Lai 和 Robbins 下限所给累积遗憾率的有限时间分析,证明了 Thompson Sampling 是解决随机多臂老虎机问题的最优策略,并通过数值比较和实验验证了这一结论。