无限时域离策略估计中的双重稳健偏差降低
本文提出了一种新的离线策略估计方法,其中将重要性采样直接应用于平稳态访问分布,从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹,我们开发了一种估计密度比的新方法,并为估算问题设计了 mini-max 损失函数,并推导出了 RKHS 情况下的封闭形式解决方案。
Oct, 2018
本文提出了一种基于 Reproducing Kernel Hilbert Spaces(RKHS)的新估计器,用于解决长远时间内的 off-policy 估计问题,其不需要对行为策略的知识或基于其改进的数据进行抽样,并提出了一种可以消除当前做法局限性的解决方案。
Mar, 2020
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
分析了新型 IS 方法中最流行的方法,通过有限 MDP 的条件蒙特卡罗视角发现,在有限 MDP 中,每决策的 IS 或固定采样 IS 的严格方差减少与普通 IS 相比没有优势。然后,提供了充分的条件,即决策或稳态估计将在有限的时间内在方差上超越 IS。针对渐近时间,提出了上下界并得出充分的条件,允许普通 IS 和每个决策或稳态估计之间存在指数 v.s. 多项式差异。通过这些结果,有助于推进我们对新型 IS 估计器何时提高离线策略评估准确性的理解。
Oct, 2019
通过重要性抽样的估计器取有限差分式,得出了基于策略梯度的有限差分及其方差的算法,提供了一种非常通用而灵活的双重稳健策略梯度估计器,并分析了其方差、与现有估计器的比较及其效果。
Oct, 2019
我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差的来源,揭示了先前隐藏的错误权衡问题。通过精心设计的判别函数,我们提出的估计器既能打破错误权衡的限制以获得可能的最紧的置信区间,又能适应分布偏移以保证鲁棒性。我们的方法适用于时间相关的数据,不需要假设任何弱依赖条件,通过利用局部超值 / 鞅结构。在非线性函数近似设置中,理论上证明了我们的算法具有高效采样、错误鲁棒和可证收敛性。所提方法在合成数据集和 OhioT1DM 移动健康研究中得到了数值性能的验证。
Sep, 2023
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划,但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
Feb, 2020
本文针对强化学习中的离策略评估问题,提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法,该方法通过最小化 DR 估计器的方差来学习模型参数,并在上下文决策和强化学习基准问题中进行评估,证明了其强一致性和渐进最优性。
Feb, 2018
本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法,用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题,并表现出在多个环境中的良好表现。
Jun, 2019
该文研究了强化学习的离线策略估值问题,介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题,提出了一种基于边缘化重要性抽样算法的新方法,并对其进行了改进,但该算法的均方误差下限仍然不能与 Cramer-Rao 下界达到同阶,且仅限于有限动作空间的情况。
Jan, 2020