KDDJun, 2021

基于 Q-Learning 拉格朗日策略的多动作不平衡赌博机

TL;DR本研究提出了两种新算法: MAIQL 和 LPQL,分别使用拉格朗日松弛和 Q-learning 来学习多操作 RMABs 的最佳策略,实现了资源的有限分配,此策略是渐近最优的。研究表明,这两种方法始终优于基准设置,包括从真实世界的药物依从性数据派生的设置。