多任务组合强盗问题的预算分配
本文将 Thompson sampling 算法扩展到预算限制的 MAB 中,通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新,证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度,通过我们的仿真实验验证了该算法的有效性。
May, 2015
本文研究了一种多保真度赌博机的变体,提出了一种名为 MF-UCB 的新型上置信区间过程,并证明了它在序列逐渐的逼近中适应性更好,并且达到了比忽略近似的策略更好的遗憾最小化效果。
Oct, 2016
这篇文章提出并研究了一种基于Chapelle的框架的新的随机多臂赌博模型,其中每种操作可能会触发一个将以随机延迟发生的未来奖励,并提供了一些性能下界和基于UCB和KLUCB框架的两个简单而有效的算法。
Jun, 2017
该论文介绍了Thompson采样算法在处理在线决策问题,尤其是在平衡当前性能和收集信息提高未来性能之间的探索与利用上的应用。该算法适用于各种问题并具有高效的计算能力,具体例子包括伯努利老虎机问题,最短路径问题,推荐系统,主动学习等。此外,本文还讨论了Thompson采样算法何时有效、何时无效以及与其他算法的关系。
Jul, 2017
本文研究了组合赌博算法在广告投放中的应用,着重探讨了在不确定预算与回报投资限制的情况下进行广告出价的优化问题,提供了优化解决方案并通过实验比较了算法在现实世界数据生成的情况下的表现。
Jan, 2022
本文提出了一种针对在线广告买卖市场的方法,以最大化广告主的总实用效益且满足预算限制,解决预算限制下不确定的、可能存在证明问题的一组拍卖中的投标最优策略问题,并对在线出价的情况进行了调查,算法在完全信息情况下的拍卖后悔为$O(T^{3/4})$。我们证明了此方法优于现有的适应性 pacing 算法的合成和真实数据集上的累计后悔。
Jun, 2023
本文针对预算多臂赌博机问题,提出了改进的汤普森采样方法以解决资源预算限制带来的选择不足。通过采用信息松弛采样框架,该研究提出了一系列随机算法,更加优化了决策过程,对比传统基准也得到了显著的改进。理论分析和模拟结果表明,所提算法在多个场景中均优于预算汤普森采样,展现了良好的应用前景。
Aug, 2024