赞助搜索的预算优化：MDP 中的屏蔽学习

Oct, 2012

赞助搜索的预算优化：MDP 中的屏蔽学习

Budget Optimization for Sponsored Search: Censored Learning in MDPs

Kareem Amin, Michael Kearns, Peter Key, Anton Schwaighofer

TL;DR本研究考虑广告主在参加重复竞价搜索拍卖时所面临的预算优化问题，将其作为带有被审查观测的马尔可夫决策过程（MDP）来建模，并提出基于 Kaplan-Meier 或产物极限估计器的学习算法。在微软广告中心的大量搜索竞拍数据上，将此算法与几种其他算法进行比较，证明其快速收敛的最佳性能。

Abstract

We consider the budget optimization problem faced by an advertiser participating in repeated sponsored search auctions, seeking to maximize the number of clicks attained under that budget. We cast the

budget optimization sponsored search auctions markov decision process learning algorithm convergence

发现论文，激发创造

基于模型的约束 MDP 在序列激励营销中的预算分配

本文提出采用 CMDP 框架和模型规划相结合的学习算法，解决了在线商业活动中如何高效地分配奖励从以往的历史订单数据中学习策略的问题。实验结果表明了本方法的有效性。

Mar, 2023

众包标注中的最优预算分配统计决策

本篇论文研究了众包标注中的预算分配问题，提出了一种基于贝叶斯马尔科夫决策过程的新算法，即乐观的知识梯度策略，该算法被证明在相同的预算水平下能够实现更高的标签准确性，实验结果表明了该算法在众包标注中的效果。

Mar, 2014

赞助搜索中的收入最大化博弈论机器学习方法

本文提出一种新颖的博弈论机器学习方法，该方法自然地合并机器学习和博弈论，通过双层优化框架学习拍卖机制以实现经验收入最大化。实验证明，该方法能够比几个基线方法产生更有效的拍卖机制。

Jun, 2014

实时竞价中可扩展的竞价预测

本文提出了一个基于未完全观测数据的 heteroscedastic fully parametric censored regression 方法和混合密度 censored 网络，用于估计广告拍卖中的赢价分布，并在实验上证明了该方法的有效性。

Jan, 2020

基于 POMDP 的相关广告的序列选择

本研究旨在研究如何使用部分可观察的马尔可夫决策过程和相关广告的相关性来提高在线发布者广告收入的效率和持续性。研究表明，使用类似于协作过滤的公式可以自然地更新相关广告的信念状态。在一个主要搜索引擎中收集和分类的真实广告数据集上进行实验，并演示我们的算法显著优于其他强基线。

Jul, 2013

具有马尔可夫用户的赞助搜索拍卖

通过研究用户行为，提出一种基于马尔可夫模型的最高效广告分配算法，结合 VCG 机制实现真实拍卖，得到了和 GSP 相似的拍卖稳定性和直观性。

May, 2008

电商中优化赞助产品的实用经验

本文研究赞助产品优化中的多个问题，包括基于位置的去偏差、点击 - 转化多任务学习和预测点击率（pCTR）的校准。我们提出了一个实用的机器学习框架，可以解决这些问题，而不改变现有机器学习模型的结构，并可以与大多数机器学习模型结合使用。我们在真实世界的在线购物网站上评估了我们的提出的实用框架，证明它可以解决广告系统中的固有问题，并为多个评估指标带来增益。

Apr, 2023

多广告位赞助搜索竞拍的真实学习机制及外部性

该论文扩展了有关单 Slot 拍卖中的 sponsored search auctions 的机制设计的研究，并研究了使用级联模型来解决多 Slot 拍卖中的 CTR 估计和真实机制设计的问题。

May, 2014

马尔可夫决策过程中最佳策略识别的自适应采样

本文研究在马尔可夫决策过程中，通过生成模型来识别最优策略，提出了 KLB-TS 算法，并提供了其样本复杂度的渐近保证。

Sep, 2020

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020