Sep, 2022

DeepTOP: MDP和RMAB的深度阈值最优策略

TL;DR本研究探讨了阈值策略在控制问题中的最优策略学习,发现其单调性质使得其策略梯度具有简单表达式,进而构建了一种基于离线策略评估方法的最优阈值策略学习算法,并应用于多臂老虎机问题中的Whittle index的学习。仿真结果表明,该算法学习速度比其他最近的Whittle index学习研究更快,能够充分利用阈值策略的单调性质获得较好性能。