May, 2019

半参数连续动作高效策略学习

TL;DR研究非策略性评估和优化在连续行动空间中的应用,提出基于半参量法的双重稳健非策略性估计模型,并证明了其对策略函数估计误差或回归模型的估计误差具有稳健性。该模型对于最优个性化定价和资源分配具有应用价值。