Jul, 2020

平均奖励马尔科夫决策过程中的批量策略学习

TL;DR研究提出了一种基于无限时段马尔可夫决策过程的批量(线下)策略学习问题,生成最大长期平均奖励的策略,并利用双重稳健估计量和优化算法实现了半参数效率计算。该研究还通过模拟​​研究和移动健康推广体育锻炼的分析来展示估算策略的性能。