基于课程引导的贝叶斯强化学习的 ROI 受限出价

KDDJun, 2022

基于课程引导的贝叶斯强化学习的 ROI 受限出价

ROI-Constrained Bidding via Curriculum-Guided Bayesian Reinforcement Learning

Haozhe Wang, Chao Du, Panyan Fang, Shuo Yuan, Xuming He...

TL;DR该篇论文描述了如何使用部分可观测马尔可夫决策过程方法做到在高度动态的广告市场中，自适应平衡 ROI 约束和目标优化的需求并提出了一种调整策略的贝叶斯强化学习框架。

Abstract

real-time bidding (RTB) is an important mechanism in modern online advertising systems. Advertisers employ bidding strategies in RTB to optimize their advertising effects subject to various financial requirements, especially the return-on-investment (→

real-time bidding roi markov decision process bayesian reinforcement learning online advertising systems

发现论文，激发创造

基于模型无关强化学习的广告展示的预算约束竞标

本研究提出一种基于强化学习的模型自由框架，将预算限制投标问题转化为马尔可夫决策过程，并采用深度神经网络学习适当的奖励 —— 从而优化决策策略 — 以在大规模真实数据集上执行 RTB 优化

Feb, 2018

展示广告中强化学习实时竞价

本文探讨了在实时竞价广告投放中，利用强化学习算法，通过状态空间表示广告拍卖信息和实时参数，在竞价过程中动态分配预算，学习最优的出价策略以最大化广告业绩，并通过神经网络解决了实际应用中的可扩展性问题。

Jan, 2017

展示广告中带有预算限制的自适应风险感知竞标

本研究提出了一种基于强化学习的新型自适应风险感知竞价算法，旨在同时考虑估计不确定性和 DSP 的动态风险倾向，并通过公共数据集的广泛实验表明，该算法在实际 setting 中优于现有的最佳方法。

Dec, 2022

实时竞价的功能优化强化学习

本文提出了一种多智能体强化学习架构以用于实时竞价广告，使用三个 Lagrange 乘数基于功能优化以及一个基准代理程序进行竞标环境设计。实验结果表明，相比其他代理程序，具有功能优化的代理程序在广告竞标过程中获胜速率和盈余率上有显著提升，表现出优异的表现和盈利性。

Jun, 2022

深度强化学习在赞助搜索实时竞价中的应用

本文提出了一种基于强化学习的方法解决了在线广告拍卖中的实时竞标问题，特别是在搜索广告拍卖中针对多关键字的竞标策略提出了一个控制模型。

Mar, 2018

面向不确定性的安全在线出价优化：考虑回报率和预算限制

本文研究了组合赌博算法在广告投放中的应用，着重探讨了在不确定预算与回报投资限制的情况下进行广告出价的优化问题，提供了优化解决方案并通过实验比较了算法在现实世界数据生成的情况下的表现。

Jan, 2022

竞标机器：学习竞标直接优化展示广告收益

本论文提出了一个综合的学习出价框架 Bidding Machine，能够联合优化估算广告效用、预测市场价值、制定最佳竞标策略三个挑战，大大提高了广告活动的效益和利润。

Mar, 2018

广告投放中的多变量控制竞价优化

本研究研究了在 RTB 环境下，广告主如何在预算限制的情况下最大化转化量，作者们通过使用线性规划和基于反馈控制方法来推导出最优出价策略，同时提出了多变量控制系统来解决应用问题，并使用淘宝真实数据进行了验证。

May, 2019

MoTiAC: 实时竞价的多目标演员 - 评论家算法

使用强化学习算法 (MoTiAC)，提出了一种多目标 Actor-Critics 算法，用于在考虑展示成本、投资回报率和其他关键绩效指标的情况下进行投标优化，可以同时实现复杂竞标环境中的多目标任务，并证明其能够收敛到帕累托最优。此算法在一个来自腾讯的大规模真实商业数据集上验证了其比最近的一组方法更为有效。

Feb, 2020

基于多智能 Agent 强化学习的实时竞价展示广告

本文讨论了如何利用多智能体强化学习进行实时广告优化，提出了一种聚类算法分配策略代理，并通过行业实验表明，与单一代理和实验算法相比，基于聚类的竞价模型具有更好的效果。

Feb, 2018