本研究提出的隐私保护算法在解决随机多臂赌博机问题时,相比之前的成果取得了较大的进展。算法可以保证最优遗憾率 O (Ɛ−1+logT), 通过实验证实了理论界和实践界之间的一致性。
Nov, 2015
本文研究了一种分散式多臂搏击器的问题,提出了一种达到最优秩序并确保公平性的分散式政策,并证明了其总遗憾增长速率的下限,这个问题在认知无线电网络,多通道通信系统,多智能体系统,网络搜索和广告以及社交网络等领域有潜在的应用。
Oct, 2009
本文探讨了多臂赌博问题在本地差分隐私保证下的遗憾最小化问题,采用差分隐私技术处理用户敏感信息,证明了一种下限并提出算法,数值实验验证了结论。
Jul, 2020
介绍了一个分布式算法来解决多臂赌博机问题,通过异步交换较少的比特数,在不进行样本交换的情况下,仅通过传递臂 ID 来维护代理之间的合作;文中提出的算法可以将每个代理的后悔最小化,并将通信复杂度降至 $O (logT)$,与不进行合作的方案相比,本算法能够显著降低每个代理的后悔。
Oct, 2019
本文解决了多臂赌博机模型 (single-pass MABs) 中的 regret minimization 问题,并设计出一些具有不同 memory 复杂度的算法分别达到了不同的最优 regret 上界,并且通过实验取得了较好的效果。
Jun, 2023
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
Jun, 2021
研究解决在已知最优的选择和最小间隔值时如何制定随机化策略,以解决随机多臂赌博问题中可能发生的后悔问题,并探讨了其下界和最优解等问题。
Feb, 2013
本文提出了一种忽略一定程度下最优性差距的 Bandit 算法,并以其为基础,设计优化算法 Thompson Sampling (ε-TS)。研究结果表明,该算法能够在一定程度上避免过度探索问题,并在保证性能的前提下,提高计算效率。
Aug, 2020
研究了多精度多臂赌博机(MF-MAB)及其最优臂识别和后悔最小化目标,为 BAI 提出了成本复杂度下限,推荐两种替代忠诚度选择程序的算法框架,并确定了两种程序的成本复杂度上限,并提出了新的后悔定义,以及解决了该问题的消除算法。
本文研究了具有差分隐私和强局部差分隐私的组合半臂赌博问题,证明了在常见平滑性假设下,该算法可以消除额外的依赖于数据维度的副作用,并且获得了最优的损失界限,表明在这些普遍的设置下,组合半臂赌博的方法没有额外的价格。
Jun, 2020