在当代在线平台中,干扰实验面临重大挑战。本研究介绍了具有干扰的多臂赌博机问题,应用集群随机化策略来达到最优期望后悔值,并得出高概率边界与实验单元数 N 无关。
Feb, 2024
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009
本文针对认知无线电网络中的多个次级用户争取多个信道的机会问题,提出去中心化多臂赌博问题,并设计出一种去中心化的在线学习策略,以达到尽可能降低总体期望回报与所有用户回归之间的差距。其中,分别考虑了优先级排序和公平访问策略。
Apr, 2011
本研究考虑了一种新颖的多臂赌博机问题(MAB with cost subsidy),为了优化累积的成本和收益,学习机构必须支付选择的手臂成本,针对这种问题,我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟,最后建立了任何线上学习算法的性能下界,为实际应用不同算法提供了实用性建议。
Nov, 2020
提出了两种多用户多臂赌博机算法框架,分别适用于随机环境和对抗环境下无协调频谱访问问题。算法可在不知道用户数量的情况下,通过估计和分配两个阶段实现高概率下的常数系统累积失误和次线性系统累积失误,并能够处理用户数量随时间改变的动态问题。
Jul, 2018
介绍了一个分布式算法来解决多臂赌博机问题,通过异步交换较少的比特数,在不进行样本交换的情况下,仅通过传递臂 ID 来维护代理之间的合作;文中提出的算法可以将每个代理的后悔最小化,并将通信复杂度降至 $O (logT)$,与不进行合作的方案相比,本算法能够显著降低每个代理的后悔。
Oct, 2019
研究一种插值两种不同信息观察方式的在线决策问题,称为 $\mathbf {m}$-MAB。施加 $\mathbf {m}$-MAB 的紧凑极小后悔界,并为其纯探索版本 $\mathbf {m}$-BAI 设计了最佳 PAC 算法。本文还将 $\mathbf {m}$-MAB 的上限和下限扩展到了更一般的带有图反馈的情景下,并得出了在几个反馈图族中获得紧凑极小后悔界的结果。
Jul, 2023
本文研究了一种名为 “部分信息” 的在线学习模型,提出了多种算法,通过信息反馈结构的组合特性,给出了紧密的遗憾界限。
Sep, 2014
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
Jun, 2021