策略梯度与主动重要性抽样

May, 2024

Policy Gradient with Active Importance Sampling

Matteo Papini, Giorgio Manganini, Alberto Maria Metelli, Marcello Restelli

TL;DR通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化，结合防御性重要性采样，我们提供了一个迭代算法，理论上分析了该算法的收敛速度，并提供了经过数值验证的实际版本，展示了在策略梯度估计方差和学习速度方面的优势。

Abstract

importance sampling (IS) represents a fundamental technique for a large surge of off-policy reinforcement learning approaches. policy gradient

importance sampling off-policy reinforcement learning policy gradient behavioral policy optimization defensive is

发现论文，激发创造

重要性采样的策略优化

本文提出一种新的，无模型的策略搜索算法，POIS，它适用于基于动作和基于参数的设置，可在连续控制任务中有效地解决强化学习问题，通过离线优化新的轨迹批次来定义一个替代目标函数，并使用高置信度界限来解决估计的目标函数方差问题。

Sep, 2018

维度重要性采样权重截断用于高效采样强化学习

本文介绍了一种针对 Proximal Policy Optimization (PPO) 算法的改良方法，通过维度加权剪裁的方式来避免重大偏差，提高智能体高维任务的样本效率并提升新算法的性能。

May, 2019

从重要性采样到双重稳健策略梯度

通过重要性抽样的估计器取有限差分式，得出了基于策略梯度的有限差分及其方差的算法，提供了一种非常通用而灵活的双重稳健策略梯度估计器，并分析了其方差、与现有估计器的比较及其效果。

Oct, 2019

重要性重采样用于非同策略预测

研究了用重要性重采样代替再赋权提高强化学习中离线预测的性能，减小了更新权重值函数的方差，并在多个案例中探究了其有关权的偏差和一致性。

Jun, 2019

基于状态重要性采样的低方差离线评估

该论文介绍了一种名为 SIS 的基于状态的重要性采样方法，用于解决强化学习中 target policy 的评估问题，并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明，与传统的重要性采样、逐决策重要性采样和增量重要性采样相比，SIS 具有更小的方差和更高的精度。

Dec, 2022

打破视野的诅咒：无穷视野离线估计

本文提出了一种新的离线策略估计方法，其中将重要性采样直接应用于平稳态访问分布，从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹，我们开发了一种估计密度比的新方法，并为估算问题设计了 mini-max 损失函数，并推导出了 RKHS 情况下的封闭形式解决方案。

Oct, 2018

重要性抽样的进展

本文介绍了 Monte Carlo 技术中的 Importance Sampling 算法及其应用，重点探讨了多重 IS 和自适应 IS 这两种先进的 IS 变体。

Feb, 2021

基于动量的策略梯度方法

本文提出了一种基于动量的策略梯度方法，利用自适应学习率，不需要任何大批量数据，以及基于新的动量方差降低技术和重要性采样，以及力学助理技术，从而提高学习效率。作者证明，该方法具有最佳的样本复杂度，并在实验中验证了其有效性。

Jul, 2020

通过条件重要性抽样理解离线策略评估中视野理论的作用

分析了新型 IS 方法中最流行的方法，通过有限 MDP 的条件蒙特卡罗视角发现，在有限 MDP 中，每决策的 IS 或固定采样 IS 的严格方差减少与普通 IS 相比没有优势。然后，提供了充分的条件，即决策或稳态估计将在有限的时间内在方差上超越 IS。针对渐近时间，提出了上下界并得出充分的条件，允许普通 IS 和每个决策或稳态估计之间存在指数 v.s. 多项式差异。通过这些结果，有助于推进我们对新型 IS 估计器何时提高离线策略评估准确性的理解。

Oct, 2019

高速公路增强学习

学习多步骤离线数据集合的核心问题是强化学习中一项重要的问题。本文提出了一种新的、无 IS 影响的、多步骤离线方法，通过引入一个名为高速公路门的机制，使得算法能够有效地利用未来较远时刻的信息并收敛到最优值函数。在具有延迟奖励的任务中，我们的新方法超越了许多现有的多步骤离线算法。

May, 2024