WSDMSep, 2023

离线约束深度强化学习中的营销预算分配

TL;DR提出一种基于值函数的强化学习方法来解决在线营销活动中利用离线数据进行预算分配的问题,该方法通过使用混合策略减少存储策略的数量,并实现了接近最优策略的效率,经过大规模的营销活动实验证明该方法优于其他基准方法。