Sep, 2023

分布偏移感知的离策略区间估计:一种统一的误差量化框架

TL;DR我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差的来源,揭示了先前隐藏的错误权衡问题。通过精心设计的判别函数,我们提出的估计器既能打破错误权衡的限制以获得可能的最紧的置信区间,又能适应分布偏移以保证鲁棒性。我们的方法适用于时间相关的数据,不需要假设任何弱依赖条件,通过利用局部超值 / 鞅结构。在非线性函数近似设置中,理论上证明了我们的算法具有高效采样、错误鲁棒和可证收敛性。所提方法在合成数据集和 OhioT1DM 移动健康研究中得到了数值性能的验证。