带预算的贝叶斯多臂赌博算法在动态广告分配中的应用

Jun, 2013

带预算的贝叶斯多臂赌博算法在动态广告分配中的应用

Dynamic Ad Allocation: Bandits with Budgets

Aleksandrs Slivkins

TL;DR本文针对互联网广告动态分配中的预算限制，运用多臂老虎机算法进行研究，提出具有强可证性、适应性强的 UCB1 算法改进方案。

Abstract

We consider an application of multi-armed bandits to internet advertising (specifically, to dynamic ad allocation in the →

multi-armed bandits internet advertising dynamic ad allocation pay-per-click model budget constraints

发现论文，激发创造

延迟转化的随机强化学习赌博机模型

这篇文章提出并研究了一种基于 Chapelle 的框架的新的随机多臂赌博模型，其中每种操作可能会触发一个将以随机延迟发生的未来奖励，并提供了一些性能下界和基于 UCB 和 KLUCB 框架的两个简单而有效的算法。

Jun, 2017

具有多次游戏和预算限制的多臂赌博机

研究多臂赌博问题下的多次试验和预算约束的拓展，提出上置信区间和 Exp3 算法的具体实现及其性能分析。

Nov, 2017

在线推荐中结合机制设计与强盗算法抗击标题党

我们研究了多臂赌博问题的战略变体，称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S，该算法实现了在不确定性下激励期望的臂行为，并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持，证实了我们所提出的激励设计的有效性和鲁棒性。

Nov, 2023

多平台广告市场中使用非 IC 拍卖的预算管理

本文提出了一种针对在线广告买卖市场的方法，以最大化广告主的总实用效益且满足预算限制，解决预算限制下不确定的、可能存在证明问题的一组拍卖中的投标最优策略问题，并对在线出价的情况进行了调查，算法在完全信息情况下的拍卖后悔为 $O (T^{3/4})$。我们证明了此方法优于现有的适应性 pacing 算法的合成和真实数据集上的累计后悔。

Jun, 2023

低成本在线决策：一种组合多臂赌博机方法

本文基于组合多臂赌博机，考虑了测试成本，提供了一种新的成本高效的在线决策框架，并通过后验抽样或 BayesUCB 进行探索。我们对该框架进行了严格的理论分析，并提供了多个实验结果，证明了它在实际问题中的适用性。

Aug, 2023

成本补贴的多臂老虎机

本研究考虑了一种新颖的多臂赌博机问题（MAB with cost subsidy），为了优化累积的成本和收益，学习机构必须支付选择的手臂成本，针对这种问题，我们提出了探索 - 开发算法的简单版本并对其进行了广泛的数值模拟，最后建立了任何线上学习算法的性能下界，为实际应用不同算法提供了实用性建议。

Nov, 2020

资源丰富的情境臂控制器

我们设计了第一个算法来解决具有资源限制的情境赌博问题，包括具有任意策略集的情境赌博和背包式赌博，并证明了具有接近最优统计属性的遗憾保证。

Feb, 2014

保守型赌徒

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

展示广告中带有预算限制的自适应风险感知竞标

本研究提出了一种基于强化学习的新型自适应风险感知竞价算法，旨在同时考虑估计不确定性和 DSP 的动态风险倾向，并通过公共数据集的广泛实验表明，该算法在实际 setting 中优于现有的最佳方法。

Dec, 2022

多保真度多臂赌博机

本文研究了一种多保真度赌博机的变体，提出了一种名为 MF-UCB 的新型上置信区间过程，并证明了它在序列逐渐的逼近中适应性更好，并且达到了比忽略近似的策略更好的遗憾最小化效果。

Oct, 2016