May, 2021

自适应数据采集的政策学习

TL;DR本文探讨在自适应数据收集环境下如何使用基于加权的估计算法来学习最优策略,提出了基于广义增强的倾向性加权(AIPW)估计器的算法,并建立了有限样本遗憾上限,证明最优权重方案下,算法即使在减少探索数据的情况下也能实现最小化的遗憾保证。