Mar, 2023

基于模型的约束 MDP 在序列激励营销中的预算分配

TL;DR本文提出采用 CMDP 框架和模型规划相结合的学习算法,解决了在线商业活动中如何高效地分配奖励从以往的历史订单数据中学习策略的问题。实验结果表明了本方法的有效性。