Feb, 2024

基于轨迹的迭代强化学习框架用于自动投标

TL;DR在线广告中,通过使用增强学习的自动竞价算法,部署多个自动竞价代理进行数据收集与训练,提出了一种迭代的离线增强学习框架,通过轨迹的探索和利用方法进行数据采集与利用,以解决传统离线增强学习算法的有效探索和开发性能瓶颈,并结合安全探索和适应性行动选择来确保在线探索的安全性和数据集质量,通过阿里巴巴展示广告平台的实际和离线实验,验证了所提出方法的有效性。