KDDJun, 2022

基于课程引导的贝叶斯强化学习的 ROI 受限出价

TL;DR该篇论文描述了如何使用部分可观测马尔可夫决策过程方法做到在高度动态的广告市场中,自适应平衡 ROI 约束和目标优化的需求并提出了一种调整策略的贝叶斯强化学习框架。