本文提出了多次试验下的 Thompson sampling 方法(MP-TS)并对其进行了后效分析,证明了其具有与 Anantharam 等人提供的最佳后悔下界相匹配的最优后悔上界,并通过计算机模拟进行了验证。我们还提出了 MP-TS 的改进版本,并表明其具有更好的实际效果。
Jun, 2015
本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题,通过提出自适应算法来自动适应问题的难度,并在理论和实验方面展现了该算法的优越性。
Jun, 2020
本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博,提出了一种正式的处理方法,并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。
May, 2014
本文针对无穷臂随机赌博机问题,提出一种算法用以最小化简单损失,并扩展到多种情况下,如未知时间跨度等。
May, 2015
本文研究了多臂赌博机问题中的激励探索方法,分析了偏差反馈对于 UCB 算法、E - 贪心算法以及汤普森抽样算法表现的影响。结果表明这些算法在偏差反馈下产生了 $log (T)$ 的遗憾和补偿,在激励探索方面是有效的。
Nov, 2019
本文提出了 LSA 算法,用于解决阈值赌博机问题,证明了该算法在实例方面渐近最优,通过多种不同情况下的实证结果证明其优于现有算法的表现。
May, 2019
我们介绍了多臂赌博问题的一种新颖扩展,它包括一个额外的战略要素:弃权。在这个增强的框架中,智能体不仅在每个时间步骤中被要求选择一个臂,还可以选择在观察之前放弃接受随机瞬时奖励。当选择放弃时,智能体将遭受固定的后悔或获得保证的奖励。在这种增加的复杂性下,我们问是否能够开发出既渐近最优又极小最优算法。通过设计和分析算法,我们肯定地回答了这个问题,使得后悔满足相应的信息论下界。我们的结果为放弃选项的好处提供了有价值的定量洞察,为进一步探索其他具有这种选项的在线决策问题打下了基础。数值结果进一步支持了我们的理论发现。
Feb, 2024
研究了多精度多臂赌博机(MF-MAB)及其最优臂识别和后悔最小化目标,为 BAI 提出了成本复杂度下限,推荐两种替代忠诚度选择程序的算法框架,并确定了两种程序的成本复杂度上限,并提出了新的后悔定义,以及解决了该问题的消除算法。
Jun, 2023
本文研究了 Thompson 采样方法在随机组合多臂赌博机框架中的应用,分析了多种算法的累积遗憾,并给出了上限界以及其他算法之间的比较结果。
Mar, 2018
本文探讨了多臂赌博问题在本地差分隐私保证下的遗憾最小化问题,采用差分隐私技术处理用户敏感信息,证明了一种下限并提出算法,数值实验验证了结论。
Jul, 2020