边缘化重要性采样用于离环境策略评估

Sep, 2023

边缘化重要性采样用于离环境策略评估

Marginalized Importance Sampling for Off-Environment Policy Evaluation

Pulkit Katdare, Nan Jiang, Katherine Driggs-Campbell

TL;DR基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的，因此本论文提出了一种新方法，通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能，该方法使用了边际化重要性采样的框架，通过在模拟器中引入目标策略的占据情况作为中间变量，并将密度比率学习为两个可以单独学习的项的乘积，从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验，结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。

Abstract

reinforcement learning (RL) methods are typically sample-inefficient, making it challenging to train and deploy RL-policies in real world robots. Even a robust policy trained in simulation, requires a real-world deployment to assess their performance. This paper proposes a new approach

reinforcement learning real-world performance marginalized importance sampling sim2sim environments sim2real task

发现论文，激发创造

使用继承表示的深度强化学习方法实现边缘化重要性采样

本文介绍了一种基于 successor representation 的边际重要性抽样 (MIS) 方法，与当前最先进的 MIS 方法相比，该方法减少了优化难度并具有普适性。作者在 Atari 和 MuJoCo 等挑战性环境中进行了实验性能评估。

Jun, 2021

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

表格式强化学习非渐近有效的离线策略评估

该文研究了强化学习的离线策略估值问题，介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题，提出了一种基于边缘化重要性抽样算法的新方法，并对其进行了改进，但该算法的均方误差下限仍然不能与 Cramer-Rao 下界达到同阶，且仅限于有限动作空间的情况。

Jan, 2020

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

广义函数逼近下的最优保守离线强化学习增广朗格朗日方法

本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法，以实现一般函数逼近和单策略可集中性的统计最优性，无需不确定性量化，并且通过应用增广 Lagrange 方法，保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同，本文方法证明消除了这种需求，并将规则化器重新解释为 “占用有效性的执行者”，而不是 “保守性的促进者”。

Nov, 2022

通过状态抽象将边缘重要抽样扩展到高维状态空间

本研究提出了一种基于状态抽象的离线策略评估方法，采用较低维的状态空间可以降低重要性采样中方差的影响，提高评估准确性和鲁棒性。

Dec, 2022

重要性采样的策略优化

本文提出一种新的，无模型的策略搜索算法，POIS，它适用于基于动作和基于参数的设置，可在连续控制任务中有效地解决强化学习问题，通过离线优化新的轨迹批次来定义一个替代目标函数，并使用高置信度界限来解决估计的目标函数方差问题。

Sep, 2018

一种深度强化学习方法用于罕见事件估计

本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法，以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化，用于减少精度方面的误差和处理多峰性提议分布的问题，并将多重重要性采样应用于多种基线以显示准确性改进。

Nov, 2022

无限时间步强化学习的黑盒离线评估

本文提出了一种基于 Reproducing Kernel Hilbert Spaces（RKHS）的新估计器，用于解决长远时间内的 off-policy 估计问题，其不需要对行为策略的知识或基于其改进的数据进行抽样，并提出了一种可以消除当前做法局限性的解决方案。

Mar, 2020