无限时间步强化学习的黑盒离线评估

ICLRMar, 2020

无限时间步强化学习的黑盒离线评估

Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning

Ali Mousavi, Lihong Li, Qiang Liu, Denny Zhou

TL;DR本文提出了一种基于 Reproducing Kernel Hilbert Spaces（RKHS）的新估计器，用于解决长远时间内的 off-policy 估计问题，其不需要对行为策略的知识或基于其改进的数据进行抽样，并提出了一种可以消除当前做法局限性的解决方案。

Abstract

off-policy estimation for long-horizon problems is important in many real-life applications such as healthcare and robotics, where high-fidelity simulators may not be available and on-policy evaluation is expensi

off-policy estimation long-horizon problems importance-sampling-based methods stationary distribution reproducing kernel hilbert spaces (rkhss)

发现论文，激发创造

打破视野的诅咒：无穷视野离线估计

本文提出了一种新的离线策略估计方法，其中将重要性采样直接应用于平稳态访问分布，从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹，我们开发了一种估计密度比的新方法，并为估算问题设计了 mini-max 损失函数，并推导出了 RKHS 情况下的封闭形式解决方案。

Oct, 2018

无限时域离策略估计中的双重稳健偏差降低

本文提出了一种基于学习价值函数的无偏增强方法，可用于减小通常重要性采样 (IS) 估计器的方差，消除因密度比估计误差引入的潜在高偏差，并证明其具有双倍的稳健性。

Oct, 2019

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

表格式强化学习非渐近有效的离线策略评估

该文研究了强化学习的离线策略估值问题，介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题，提出了一种基于边缘化重要性抽样算法的新方法，并对其进行了改进，但该算法的均方误差下限仍然不能与 Cramer-Rao 下界达到同阶，且仅限于有限动作空间的情况。

Jan, 2020

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020

通过条件重要性抽样理解离线策略评估中视野理论的作用

分析了新型 IS 方法中最流行的方法，通过有限 MDP 的条件蒙特卡罗视角发现，在有限 MDP 中，每决策的 IS 或固定采样 IS 的严格方差减少与普通 IS 相比没有优势。然后，提供了充分的条件，即决策或稳态估计将在有限的时间内在方差上超越 IS。针对渐近时间，提出了上下界并得出充分的条件，允许普通 IS 和每个决策或稳态估计之间存在指数 v.s. 多项式差异。通过这些结果，有助于推进我们对新型 IS 估计器何时提高离线策略评估准确性的理解。

Oct, 2019

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

边缘化重要性采样用于离环境策略评估

基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的，因此本论文提出了一种新方法，通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能，该方法使用了边际化重要性采样的框架，通过在模拟器中引入目标策略的占据情况作为中间变量，并将密度比率学习为两个可以单独学习的项的乘积，从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验，结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。

Sep, 2023