带预算的贝叶斯多臂赌博算法在动态广告分配中的应用
这篇文章提出并研究了一种基于 Chapelle 的框架的新的随机多臂赌博模型,其中每种操作可能会触发一个将以随机延迟发生的未来奖励,并提供了一些性能下界和基于 UCB 和 KLUCB 框架的两个简单而有效的算法。
Jun, 2017
我们研究了多臂赌博问题的战略变体,称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S,该算法实现了在不确定性下激励期望的臂行为,并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持,证实了我们所提出的激励设计的有效性和鲁棒性。
Nov, 2023
本文提出了一种针对在线广告买卖市场的方法,以最大化广告主的总实用效益且满足预算限制,解决预算限制下不确定的、可能存在证明问题的一组拍卖中的投标最优策略问题,并对在线出价的情况进行了调查,算法在完全信息情况下的拍卖后悔为 $O (T^{3/4})$。我们证明了此方法优于现有的适应性 pacing 算法的合成和真实数据集上的累计后悔。
Jun, 2023
本文基于组合多臂赌博机,考虑了测试成本,提供了一种新的成本高效的在线决策框架,并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析,并提供了多个实验结果,证明了它在实际问题中的适用性。
Aug, 2023
本研究考虑了一种新颖的多臂赌博机问题(MAB with cost subsidy),为了优化累积的成本和收益,学习机构必须支付选择的手臂成本,针对这种问题,我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟,最后建立了任何线上学习算法的性能下界,为实际应用不同算法提供了实用性建议。
Nov, 2020
研究一种新颖的多臂赌博问题,旨在解决公司在探索最大化收益新策略的同时,保持其收益在固定时间内持续增长的挑战。 通过提出自然而又新颖的策略来维护限制,我们在随机和对抗设置下分析了限制维护的代价。
Feb, 2016
本研究提出了一种基于强化学习的新型自适应风险感知竞价算法,旨在同时考虑估计不确定性和 DSP 的动态风险倾向,并通过公共数据集的广泛实验表明,该算法在实际 setting 中优于现有的最佳方法。
Dec, 2022
本文研究了一种多保真度赌博机的变体,提出了一种名为 MF-UCB 的新型上置信区间过程,并证明了它在序列逐渐的逼近中适应性更好,并且达到了比忽略近似的策略更好的遗憾最小化效果。
Oct, 2016