多任务组合强盗问题的预算分配

Aug, 2024

Multi-Task Combinatorial Bandits for Budget Allocation

Lin Ge, Yang Xu, Jianing Chu, David Cramer, Fuhong Li...

TL;DR本研究针对市场营销经理在预算分配中面临的挑战，提出了一种将预算分配形式化为多任务组合强盗问题的新方法。通过引入贝叶斯层次模型和灵活的建模技术，该系统优化了信息共享与模型适应性，最显著的发现是检查方法有效地提升了整体累计回报。

Abstract

Today's top advertisers typically manage hundreds of campaigns simultaneously and consistently launch new ones throughout the year. A crucial challenge for marketing managers is determining the optimal allocation of limited budgets across various ad lines in each campaign to maximize cumulative returns, especially given the huge uncertainty in return outcome

发现论文，激发创造

带预算的贝叶斯多臂赌博算法在动态广告分配中的应用

本文针对互联网广告动态分配中的预算限制，运用多臂老虎机算法进行研究，提出具有强可证性、适应性强的UCB1算法改进方案。

Jun, 2013

基于多点触控归因的在线广告预算分配

该研究探讨了在线广告的预算分配问题，通过使用多种归因方法来确定子活动的表现，以最大化广告主或活动级别的投资回报率。

Feb, 2015

预算多臂老虎机的汤普森抽样

本文将 Thompson sampling 算法扩展到预算限制的 MAB 中，通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新，证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度，通过我们的仿真实验验证了该算法的有效性。

May, 2015

多保真度多臂赌博机

本文研究了一种多保真度赌博机的变体，提出了一种名为 MF-UCB 的新型上置信区间过程，并证明了它在序列逐渐的逼近中适应性更好，并且达到了比忽略近似的策略更好的遗憾最小化效果。

Oct, 2016

延迟转化的随机强化学习赌博机模型

这篇文章提出并研究了一种基于Chapelle的框架的新的随机多臂赌博模型，其中每种操作可能会触发一个将以随机延迟发生的未来奖励，并提供了一些性能下界和基于UCB和KLUCB框架的两个简单而有效的算法。

Jun, 2017

Thompson抽样教程

该论文介绍了Thompson采样算法在处理在线决策问题，尤其是在平衡当前性能和收集信息提高未来性能之间的探索与利用上的应用。该算法适用于各种问题并具有高效的计算能力，具体例子包括伯努利老虎机问题，最短路径问题，推荐系统，主动学习等。此外，本文还讨论了Thompson采样算法何时有效、何时无效以及与其他算法的关系。

Jul, 2017

面向不确定性的安全在线出价优化：考虑回报率和预算限制

本文研究了组合赌博算法在广告投放中的应用，着重探讨了在不确定预算与回报投资限制的情况下进行广告出价的优化问题，提供了优化解决方案并通过实验比较了算法在现实世界数据生成的情况下的表现。

Jan, 2022

盲资源分配的随机直接搜索方法的遗憾分析

研究在预算分配中使用直接搜索方法，提出了一种改进的算法来加速梯度下降方向的识别，并将算法的累计遗憾度分析为T的2/3次方的上限。

Oct, 2022

多平台广告市场中使用非 IC 拍卖的预算管理

本文提出了一种针对在线广告买卖市场的方法，以最大化广告主的总实用效益且满足预算限制，解决预算限制下不确定的、可能存在证明问题的一组拍卖中的投标最优策略问题，并对在线出价的情况进行了调查，算法在完全信息情况下的拍卖后悔为$O(T^{3/4})$。我们证明了此方法优于现有的适应性 pacing 算法的合成和真实数据集上的累计后悔。

Jun, 2023

通过信息松弛改进预算多臂赌博机中的汤普森采样

本文针对预算多臂赌博机问题，提出了改进的汤普森采样方法以解决资源预算限制带来的选择不足。通过采用信息松弛采样框架，该研究提出了一系列随机算法，更加优化了决策过程，对比传统基准也得到了显著的改进。理论分析和模拟结果表明，所提算法在多个场景中均优于预算汤普森采样，展现了良好的应用前景。

Aug, 2024