Oct, 2023

优化生产投标策略的离线强化学习

TL;DR通过离线强化学习从真实数据中学习,我们提出了一种通用方法来优化生产环境中的竞价策略,这种方法可以用于优化任何可微分的基础策略,并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来,在训练后仅部署优化的基础策略参数,而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本,因为它直接优化现有生产流程的参数,而不是用类似神经网络的黑箱模型替换它们。