离线评估和策略优化的极小极大值区间
本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法,用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题,并表现出在多个环境中的良好表现。
Jun, 2019
本文提出了一种基于学习价值函数的无偏增强方法,可用于减小通常重要性采样 (IS) 估计器的方差,消除因密度比估计误差引入的潜在高偏差,并证明其具有双倍的稳健性。
Oct, 2019
通过重要性抽样的估计器取有限差分式,得出了基于策略梯度的有限差分及其方差的算法,提供了一种非常通用而灵活的双重稳健策略梯度估计器,并分析了其方差、与现有估计器的比较及其效果。
Oct, 2019
该研究考虑在上下文匹配机器学习算法的偏离策略评估中,提出了一种新的方法——基于自归一化重要性权重估算目标策略的价值下界,并在合成和实际数据集上测试表明该方法可获得更优越的策略,包括更紧密的置信区间和选择的质量。
Jun, 2020
研究提出了用于获得一般连续情况下离线策略评估的区间界限的可证明正确的方法,该方法基于搜索与观察一致的所有Lipschitz Q函数中期望奖励的最大和最小值,进而引入了Lipschitz值迭代方法以加紧区间,可以在一定程度上提高部分高风险应用的效率。
Oct, 2020
本文提出一种基于原始-对偶优化的算法,用于构建非渐进置信区间,该算法利用了Feng等人(2019年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。
Mar, 2021
本研究提出了基于KL散度不确定性集合的局部化双重稳健离线评估(LDR$^2$OPE)和连续双重稳健离线学习(CDR$^2$OPL)算法,用于应对观测数据的环境分布移位问题及未知倾向估计带来的方差挑战,其表现在模拟实验中得到验证,并进一步扩展到了一般的$f$-divergence不确定性集合。
Feb, 2022
本文提供了在可行性前提下,通过在MIS目标上施加适当的规范化对离线策略函数估计提供保证,并提供了优化对偶解的确切特征化方法,该解决方案需要由鉴别器类实现,这决定了在值函数学习的情况下数据覆盖假设。
Oct, 2022
我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差的来源,揭示了先前隐藏的错误权衡问题。通过精心设计的判别函数,我们提出的估计器既能打破错误权衡的限制以获得可能的最紧的置信区间,又能适应分布偏移以保证鲁棒性。我们的方法适用于时间相关的数据,不需要假设任何弱依赖条件,通过利用局部超值/鞅结构。在非线性函数近似设置中,理论上证明了我们的算法具有高效采样、错误鲁棒和可证收敛性。所提方法在合成数据集和OhioT1DM移动健康研究中得到了数值性能的验证。
Sep, 2023