离线约束深度强化学习中的营销预算分配

WSDMSep, 2023

离线约束深度强化学习中的营销预算分配

Marketing Budget Allocation with Offline Constrained Deep Reinforcement Learning

Tianchi Cai, Jiyan Jiang, Wenpeng Zhang, Shiji Zhou, Xierui Song...

TL;DR提出一种基于值函数的强化学习方法来解决在线营销活动中利用离线数据进行预算分配的问题，该方法通过使用混合策略减少存储策略的数量，并实现了接近最优策略的效率，经过大规模的营销活动实验证明该方法优于其他基准方法。

Abstract

We study the budget allocation problem in online marketing campaigns that utilize previously collected offline data. We first discuss the

budget allocation online marketing campaigns offline data reinforcement learning method value-based

发现论文，激发创造

离线强化学习算法：在线评估预算的重要性

本文研究表明，对于深度离线强化学习算法的可靠比较，在线评估预算的重要性，提出采用 NLP 领域的报告工具（期望验证性能）报告深度离线强化学习算法在不同预算下的表现，并且通过使用该工具，当在有限预算内工作时，行为克隆方法往往比离线强化学习算法更有优势。

Oct, 2021

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023

基于模型无关强化学习的广告展示的预算约束竞标

本研究提出一种基于强化学习的模型自由框架，将预算限制投标问题转化为马尔可夫决策过程，并采用深度神经网络学习适当的奖励 —— 从而优化决策策略 — 以在大规模真实数据集上执行 RTB 优化

Feb, 2018

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

营销预算分配的统一框架

本文提出了一种基于数据驱动、使用半黑盒模型和高效优化算法的营销预算配置框架，以应对在线业务中动态环境和复杂决策 - making 过程，支持多种业务约束，可以处理大规模的问题，并在阿里巴巴集团的许多场景中取得了成功的应用，离线实验和在线 A/B 测试均证明了其有效性。

Feb, 2019

连续双重约束批次强化学习

本研究提出基于批次强化学习的算法，仅使用固定的离线数据集而非在线与环境的交互来学习有效策略，并通过策略约束和价值约束对数据集不足的情况进行干扰，实现对候选策略的控制，相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。

Feb, 2021

离线强化学习的预算对比实验

本文提出了一种采用动态规划和固定点求解的方法，用以控制训练中的数据采样分布并改善数据利用效率，在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。

Jul, 2023

具有实时预算约束的安全离线强化学习

本文从轨迹分布角度提出了基于 Trajectory-based REal-time Budget Inference (TREBI) 的解决方案，以解决离线情况下真实时间预算约束问题，理论上证明了收益和成本估计的误差界限，为 TREBI 提供性能保证。实验结果在广告应用中证明了 TREBI 在解决离线环境下的实时预算约束问题的能力。

Jun, 2023

面向离线 - 在线强化学习的政策扩展方案

通过先预训练离线数据，再使用强化学习进行在线微调是一种有效的控制策略学习策略，本文提出了一种策略扩展方案以增加新的策略来参与探索，有效提高了学习效率和性能表现。

Feb, 2023