Mar, 2023

从时间数据中学习行动,推荐最佳策略

TL;DR本文提出了一个基于强化学习的方法来学习,通过观察过去的执行来推荐最佳活动以优化感兴趣的 KPI,首先通过学习特定 KPI 的马尔可夫决策过程,然后使用 RL 训练来学习最优策略,该方法通过在真实和合成数据集上的验证,并与异策略深度 RL 方法进行比较,表明了我们方法与深度 RL 方法相比,具有同等或更好优势,从而为利用白盒 RL 技术的场景提供了贡献,其中仅有时间执行数据可用。