Oct, 2022

可持续的在线强化学习用于自动竞价

TL;DR本文中,我们提出了一种可持续的在线强化学习(SORL)框架,该框架通过与实际广告系统(RAS)直接交互来训练自动出价策略,从而避免了问题在离线虚拟广告系统(VAS)中进行RL训练过程。这一方法包括安全高效的在线探索(SER)策略、方差抑制保守Q学习(V-CQL)方法等,能够有效地学习自动出价策略并提高自动出价算法的表现。