深度策略优化中的一种简单而有效的方差减少技术：样本丢弃

Feb, 2023

深度策略优化中的一种简单而有效的方差减少技术：样本丢弃

Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization

Zichuan Lin, Xiapeng Wu, Mingfei Sun, Deheng Ye, Qiang Fu...

TL;DR本文通过实验表明，利用重要性抽样进行策略优化的代价是很高的方差估计，提出了一种名为 “样本丢弃” 的技术，以限制重要性抽样带来的估计方差，并在一些代表性的策略优化算法上应用，如 TRPO、PPO 和 ESPO，实验证明 “样本丢弃” 可以提高这些深度强化学习算法的性能。

Abstract

Recent success in deep reinforcement learning (DRL) methods has shown that policy optimization with respect to an off-policy distribution via importance sampling is effective for →

deep reinforcement learning importance sampling policy optimization sample reuse sample dropout

发现论文，激发创造

强化学习中的退化策略：限制策略优化方法中的替代目标方差

本文提出了一种适用于主流政策优化算法的强化学习框架，通过引入一种称为 dropout 技术的方法，避免了由于重要性采样而导致的代理目标方差的过度增加，并验证了在 Atari 2600 环境中，D-PPO 相对于 PPO 算法在性能上取得了显著的改进，有效限制了训练过程中代理目标方差的过度增加。

Oct, 2023

重要性采样的策略优化

本文提出一种新的，无模型的策略搜索算法，POIS，它适用于基于动作和基于参数的设置，可在连续控制任务中有效地解决强化学习问题，通过离线优化新的轨迹批次来定义一个替代目标函数，并使用高置信度界限来解决估计的目标函数方差问题。

Sep, 2018

从重要性采样到双重稳健策略梯度

通过重要性抽样的估计器取有限差分式，得出了基于策略梯度的有限差分及其方差的算法，提供了一种非常通用而灵活的双重稳健策略梯度估计器，并分析了其方差、与现有估计器的比较及其效果。

Oct, 2019

基于序列建模的强化学习离策略评估中使用双重策略估计的统计高效方差缩减

提出了一种利用线下序列建模和线下强化学习相结合的双策略估计 (DPE) 的强化学习算法，具有统计上证明的方差降低性质，应用于多个 OpenAI Gym 中的任务，并在 D4RL 基准测试中取得了性能改进，优于基线方法，展示了序列建模强化学习中双策略估计的优势。

Aug, 2023

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

并非所有样本都是相等的：使用重要性采样的深度学习

本研究提出了一种基于重要性采样的计算优化方案，该方案能够减少深度神经网络训练过程中冗余计算，提升模型的训练效果并有效降低损失。实验结果显示，该方案能够在相同的时间预算下，将训练损失降低一个数量级，并提高测试误差 5％至 17％。

Mar, 2018

分布式重要性采样在 SGD 中的方差减少

该研究提出一种分布式深度学习框架，其中一组工作者并行搜索最具信息性的示例，而单个工作者则使用重要性抽样方法更新模型。实验证明，当采样提议与梯度的 L2 范数成正比时，该方法可以减少梯度方差，即使在跨机器同步成本不可忽略且重要性抽样因子不会立即更新的情况下也是如此。

Nov, 2015

针对开放集条件下的鲁棒物体检测的 Dropout 采样

本研究首次研究了 Dropout Sampling 在目标检测中的应用，通过从先进的目标检测系统中提取标签不确定性，利用 Dropout Sampling 网络实现了在机器人视觉中通常遇到的开放条件下的目标检测性能的提高，实现了召回率增加 12.3％（与标准网络相同的精度得分）和精度增加 15.1％（与标准网络相同的召回得分）。

Oct, 2017

随机优化的在线方差缩减

本文提出了一种基于 Heuristic 和 Bandit 反馈的在线优化算法，可以寻找一种重要性采样分布序列，竞争力可以与后见之明得到的最佳固定分布相媲美，并在实验验证中证明了该算法在多个数据集和设置下有效的优点。

Feb, 2018

通过双方差降低近似最优离线强化学习

本文提出了一种新的算法 OPDVR 用于离线强化学习中的方差缩减，其能够证明在离线数据情况下，在有限时间内获得最优策略，同时在某些环境设定下具有最优样本复杂度，为离线强化学习的发展提供了新方案。

Feb, 2021