使用估计行为策略的重要性采样策略评估

ICMLJun, 2018

使用估计行为策略的重要性采样策略评估

Importance Sampling Policy Evaluation with an Estimated Behavior Policy

Josiah P. Hanna, Scott Niekum, Peter Stone

TL;DR本文研究了马尔可夫决策过程中，利用重要性采样评估不同数据生成策略预期回报的问题。通过实验，我们发现使用估计的行为策略可降低离线策略评估的平均平方误差，尤其是在具有非马尔可夫性的情况下。

Abstract

We consider the problem of off-policy evaluation in Markov decision processes. off-policy evaluation is the task of evaluating the expected return of one policy with data generated by a different, behavior policy

off-policy evaluation markov decision process importance sampling behavior policy estimate mean squared error

发现论文，激发创造

基于状态重要性采样的低方差离线评估

该论文介绍了一种名为 SIS 的基于状态的重要性采样方法，用于解决强化学习中 target policy 的评估问题，并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明，与传统的重要性采样、逐决策重要性采样和增量重要性采样相比，SIS 具有更小的方差和更高的精度。

Dec, 2022

面向离线强化学习的价值感知重要性加权

本文提出了一种基于价值感知的重要性权重方法，可用于增强学习的离线预测模型，并在实验中进行了评估。

Jun, 2023

重要性采样的策略优化

本文提出一种新的，无模型的策略搜索算法，POIS，它适用于基于动作和基于参数的设置，可在连续控制任务中有效地解决强化学习问题，通过离线优化新的轨迹批次来定义一个替代目标函数，并使用高置信度界限来解决估计的目标函数方差问题。

Sep, 2018

使用标准化重要性采样的 POMDP 政策改进

提出了一种新方法来从经验中估计 POMDP 的预期收益率。方法不需要任何 POMDP 知识，允许从任意策略序列中收集经验。可以为 POMDP 的任何新策略估计回报。我们从函数逼近和重要性采样的角度进行了估计器的激励并推导出其理论性质。虽然估计器存在偏差，但它的方差较小，并且在进行成对比较时偏差通常是无关紧要的。最后，将估计器扩展到具有记忆的策略，并将其在贪心搜索算法中与 REINFORCE 算法的性能进行比较，显示了需要的试验次数的数量级的减少。

Jan, 2013

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

黑盒重要性采样

本文研究黑盒重要性抽样方法，可计算从任何未知提议或黑盒机制生成的样本的重要性权重，允许我们使用更好更丰富的提议来解决困难问题，并提高了估计精度。

Oct, 2016

边缘化重要性采样用于离环境策略评估

基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的，因此本论文提出了一种新方法，通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能，该方法使用了边际化重要性采样的框架，通过在模拟器中引入目标策略的占据情况作为中间变量，并将密度比率学习为两个可以单独学习的项的乘积，从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验，结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。

Sep, 2023

条件重要性采样用于离线学习

本文提出了一个基于条件重要性采样比的离线策略强化学习概念框架，探索了其应用于算法设计的新视角，并证实了它的理论意义及其派生算法。

Oct, 2019

一种深度强化学习方法用于罕见事件估计

本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法，以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化，用于减少精度方面的误差和处理多峰性提议分布的问题，并将多重重要性采样应用于多种基线以显示准确性改进。

Nov, 2022

策略梯度与主动重要性抽样

通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化，结合防御性重要性采样，我们提供了一个迭代算法，理论上分析了该算法的收敛速度，并提供了经过数值验证的实际版本，展示了在策略梯度估计方差和学习速度方面的优势。

May, 2024