基于轨迹的迭代强化学习框架用于自动投标

Feb, 2024

基于轨迹的迭代强化学习框架用于自动投标

Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding

Haoming Li, Yusen Huo, Shuai Dou, Zhenzhe Zheng, Zhilin Zhang...

TL;DR在线广告中，通过使用增强学习的自动竞价算法，部署多个自动竞价代理进行数据收集与训练，提出了一种迭代的离线增强学习框架，通过轨迹的探索和利用方法进行数据采集与利用，以解决传统离线增强学习算法的有效探索和开发性能瓶颈，并结合安全探索和适应性行动选择来确保在线探索的安全性和数据集质量，通过阿里巴巴展示广告平台的实际和离线实验，验证了所提出方法的有效性。

Abstract

In online advertising, advertisers participate in ad auctions to acquire ad opportunities, often by utilizing auto-bidding tools provided by demand-side platforms (DSPs). The current auto-bidding algorithms typic

online advertising auto-bidding algorithms reinforcement learning offline rl algorithms trajectory-wise exploration

发现论文，激发创造

可持续的在线强化学习用于自动竞价

本文中，我们提出了一种可持续的在线强化学习（SORL）框架，该框架通过与实际广告系统（RAS）直接交互来训练自动出价策略，从而避免了问题在离线虚拟广告系统（VAS）中进行 RL 训练过程。这一方法包括安全高效的在线探索（SER）策略、方差抑制保守 Q 学习（V-CQL）方法等，能够有效地学习自动出价策略并提高自动出价算法的表现。

Oct, 2022

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023

DEAR: 推荐系统中用于在线广告展示的深度强化学习

本文提出了一种基于强化学习的广告策略，通过设计一个新型的深度 Q 网络结构，可以连续更新其广告策略，在推荐列表中插入广告或不插入广告，并选择最优广告和最佳插入位置，使得推荐广告效果显著提升。

Sep, 2019

离线强化学习作为反探索策略

本研究提出了一种新的离线强化学习代理，将基于奖励的勘探法的探索奖励从奖励中减去，以使策略保持在数据集的支持范围内，并连接该方法到对学习策略向数据集的普遍约束的正则化，通过基于变分自动编码器的预测误差的奖励进行实例化，证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。

Jun, 2021

具有实时预算约束的安全离线强化学习

本文从轨迹分布角度提出了基于 Trajectory-based REal-time Budget Inference (TREBI) 的解决方案，以解决离线情况下真实时间预算约束问题，理论上证明了收益和成本估计的误差界限，为 TREBI 提供性能保证。实验结果在广告应用中证明了 TREBI 在解决离线环境下的实时预算约束问题的能力。

Jun, 2023

展示广告中强化学习实时竞价

本文探讨了在实时竞价广告投放中，利用强化学习算法，通过状态空间表示广告拍卖信息和实时参数，在竞价过程中动态分配预算，学习最优的出价策略以最大化广告业绩，并通过神经网络解决了实际应用中的可扩展性问题。

Jan, 2017

离线强化学习在实时竞价和推荐中的加速应用：模拟的潜在应用

利用模拟来加速离线强化学习与行动评估的实证研究：探讨离线强化学习与行动评估的实证研究如何受益于模拟，并提供了在 RecSys 和 RTB 中进一步促进实证研究的开放挑战和解决方案。

Sep, 2021

行为监督调节的离线强化学习

TD3-BST 是一种应用于脱机强化学习算法的不确定性模型，通过指导策略在数据集支持中选择动作，从而比先前的方法更有效地从离线数据集中学习策略，并在具有挑战性的基准测试中取得最佳性能，无需进行特定数据集的调整。

Apr, 2024

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

用户交互离线强化学习

本论文提出了一种算法，使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题，通过调整运行时的设定，可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度，并在策略降级或行为过于偏离熟悉行为时随时停止。

May, 2022