优化生产投标策略的离线强化学习

Oct, 2023

优化生产投标策略的离线强化学习

Offline Reinforcement Learning for Optimizing Production Bidding Policies

Dmytro Korenkevych, Frank Cheng, Artsiom Balakir, Alex Nikulkov, Lingnan Gao...

TL;DR通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Abstract

The online advertising market, with its thousands of auctions run per second, presents a daunting challenge for advertisers who wish to optimize their spend under a budget constraint. Thus, advertising platforms typically provide automated agents to their customers, which act on their

online advertising market optimized bidding policies offline reinforcement learning hybrid agent architecture production bidding environments

发现论文，激发创造

基于轨迹的迭代强化学习框架用于自动投标

在线广告中，通过使用增强学习的自动竞价算法，部署多个自动竞价代理进行数据收集与训练，提出了一种迭代的离线增强学习框架，通过轨迹的探索和利用方法进行数据采集与利用，以解决传统离线增强学习算法的有效探索和开发性能瓶颈，并结合安全探索和适应性行动选择来确保在线探索的安全性和数据集质量，通过阿里巴巴展示广告平台的实际和离线实验，验证了所提出方法的有效性。

Feb, 2024

展示广告中强化学习实时竞价

本文探讨了在实时竞价广告投放中，利用强化学习算法，通过状态空间表示广告拍卖信息和实时参数，在竞价过程中动态分配预算，学习最优的出价策略以最大化广告业绩，并通过神经网络解决了实际应用中的可扩展性问题。

Jan, 2017

可持续的在线强化学习用于自动竞价

本文中，我们提出了一种可持续的在线强化学习（SORL）框架，该框架通过与实际广告系统（RAS）直接交互来训练自动出价策略，从而避免了问题在离线虚拟广告系统（VAS）中进行 RL 训练过程。这一方法包括安全高效的在线探索（SER）策略、方差抑制保守 Q 学习（V-CQL）方法等，能够有效地学习自动出价策略并提高自动出价算法的表现。

Oct, 2022

基于多智能 Agent 强化学习的实时竞价展示广告

本文讨论了如何利用多智能体强化学习进行实时广告优化，提出了一种聚类算法分配策略代理，并通过行业实验表明，与单一代理和实验算法相比，基于聚类的竞价模型具有更好的效果。

Feb, 2018

使用马尔可夫决策过程和机器学习技术改善在线广告实时竞价

本文提出了一种结合深度学习和强化学习技术的实时竞价新方法，用于优化广告投放并提高成效，通过历史数据的比较验证了该方法的有效性和实用性，并对模型参数对算法表现的影响进行了研究。

May, 2023

离线约束深度强化学习中的营销预算分配

提出一种基于值函数的强化学习方法来解决在线营销活动中利用离线数据进行预算分配的问题，该方法通过使用混合策略减少存储策略的数量，并实现了接近最优策略的效率，经过大规模的营销活动实验证明该方法优于其他基准方法。

Sep, 2023

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

DEAR: 推荐系统中用于在线广告展示的深度强化学习

本文提出了一种基于强化学习的广告策略，通过设计一个新型的深度 Q 网络结构，可以连续更新其广告策略，在推荐列表中插入广告或不插入广告，并选择最优广告和最佳插入位置，使得推荐广告效果显著提升。

Sep, 2019

带有对抗训练的模型强化学习在在线推荐中的应用

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

实时竞价的功能优化强化学习

本文提出了一种多智能体强化学习架构以用于实时竞价广告，使用三个 Lagrange 乘数基于功能优化以及一个基准代理程序进行竞标环境设计。实验结果表明，相比其他代理程序，具有功能优化的代理程序在广告竞标过程中获胜速率和盈余率上有显著提升，表现出优异的表现和盈利性。

Jun, 2022