KDDFeb, 2020

MoTiAC: 实时竞价的多目标演员 - 评论家算法

TL;DR使用强化学习算法 (MoTiAC),提出了一种多目标 Actor-Critics 算法,用于在考虑展示成本、投资回报率和其他关键绩效指标的情况下进行投标优化,可以同时实现复杂竞标环境中的多目标任务,并证明其能够收敛到帕累托最优。此算法在一个来自腾讯的大规模真实商业数据集上验证了其比最近的一组方法更为有效。