使用标准化重要性采样的 POMDP 政策改进

Jan, 2013

使用标准化重要性采样的 POMDP 政策改进

Policy Improvement for POMDPs Using Normalized Importance Sampling

Christian R. Shelton

TL;DR提出了一种新方法来从经验中估计 POMDP 的预期收益率。方法不需要任何 POMDP 知识，允许从任意策略序列中收集经验。可以为 POMDP 的任何新策略估计回报。我们从函数逼近和重要性采样的角度进行了估计器的激励并推导出其理论性质。虽然估计器存在偏差，但它的方差较小，并且在进行成对比较时偏差通常是无关紧要的。最后，将估计器扩展到具有记忆的策略，并将其在贪心搜索算法中与 REINFORCE 算法的性能进行比较，显示了需要的试验次数的数量级的减少。

Abstract

We present a new method for estimating the expected return of a pomdp from experience. The method does not assume any knowledge of the pomdp and allows the experience to be gathered from an arbitrary sequence of

pomdp return estimation importance sampling function-approximation memory

发现论文，激发创造

使用估计行为策略的重要性采样策略评估

本文研究了马尔可夫决策过程中，利用重要性采样评估不同数据生成策略预期回报的问题。通过实验，我们发现使用估计的行为策略可降低离线策略评估的平均平方误差，尤其是在具有非马尔可夫性的情况下。

Jun, 2018

重要性采样的策略优化

本文提出一种新的，无模型的策略搜索算法，POIS，它适用于基于动作和基于参数的设置，可在连续控制任务中有效地解决强化学习问题，通过离线优化新的轨迹批次来定义一个替代目标函数，并使用高置信度界限来解决估计的目标函数方差问题。

Sep, 2018

一种深度强化学习方法用于罕见事件估计

本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法，以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化，用于减少精度方面的误差和处理多峰性提议分布的问题，并将多重重要性采样应用于多种基线以显示准确性改进。

Nov, 2022

通过重要性采样在自然策略梯度中重新使用历史轨迹：收敛性和收敛速率

本文研究了一种重用历史轨迹的自然策略梯度方法变体，并证明了所提梯度估计器的偏差在渐近上是可以忽略的，算法收敛且重用过去的轨迹有助于提高收敛速度。我们进一步将所提估计器应用于流行的策略优化算法，如信任区域策略优化，并在经典基准测试上验证了我们的理论结果。

Mar, 2024

边缘化重要性采样用于离环境策略评估

基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的，因此本论文提出了一种新方法，通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能，该方法使用了边际化重要性采样的框架，通过在模拟器中引入目标策略的占据情况作为中间变量，并将密度比率学习为两个可以单独学习的项的乘积，从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验，结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。

Sep, 2023

无限时间视角的策略梯度估计

本文提出了一种名为 GPOMDP 的基于模拟的算法，用于在部分可观测马尔可夫决策过程（POMDPs）中控制参数化随机策略，生成偏差估计的平均奖励梯度。

Jun, 2011

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

条件重要性采样用于离线学习

本文提出了一个基于条件重要性采样比的离线策略强化学习概念框架，探索了其应用于算法设计的新视角，并证实了它的理论意义及其派生算法。

Oct, 2019

离线策略学习中对规范化重要性采样的悲观性统一 PAC-Bayesian 研究

通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重，我们提出了一个可验证的 PAC-Bayesian 泛化界限，该界限广泛适用于常见的重要性权重规范化方法，从而在单个框架内进行比较。我们的实证结果挑战了常见的认知，证明了标准的 IW 规范化技术的有效性。

Jun, 2024