只有相关信息才重要：过滤噪声样本以提高强化学习效果

IJCAIApr, 2019

只有相关信息才重要：过滤噪声样本以提高强化学习效果

Only Relevant Information Matters: Filtering Out Noisy Samples to Boost RL

Yannis Flet-Berliac, Philippe Preux

TL;DR本论文提出一种名为 SAUNA 的方法，使用价值函数的差距测量值来选择在策略梯度方法中进行训练的样本，从而过滤掉无效的状态转移，实验结果表明，该方法显著提高了性能。

Abstract

In reinforcement learning, policy gradient algorithms optimize the policy directly and rely on sampling efficiently an environment. Nevert

reinforcement learning policy gradient algorithms sampling sauna transition filtering

发现论文，激发创造

学习放弃无信息数据

通过选择性学习理论，我们提出了一种新的方法，在高噪声数据分布下学习和决策，并通过最小化这个损失函数来区分有用数据和无用数据进行预测。我们还描述了一个迭代算法，同时优化预测器和选择器，并在各种场景中评估了其实证表现。

Sep, 2023

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022

一种深度强化学习方法用于罕见事件估计

本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法，以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化，用于减少精度方面的误差和处理多峰性提议分布的问题，并将多重重要性采样应用于多种基线以显示准确性改进。

Nov, 2022

分布式重要性采样在 SGD 中的方差减少

该研究提出一种分布式深度学习框架，其中一组工作者并行搜索最具信息性的示例，而单个工作者则使用重要性抽样方法更新模型。实验证明，当采样提议与梯度的 L2 范数成正比时，该方法可以减少梯度方差，即使在跨机器同步成本不可忽略且重要性抽样因子不会立即更新的情况下也是如此。

Nov, 2015

通过无放回抽样估计离散随机变量的梯度

本文提出了一种基于无重复抽样的离散随机变量期望无偏估计方法，将其与 REINFORCE 算法相结合，得到了具有内置控制变量的策略梯度估计器，并应用于多种任务得到了良好的效果。

Feb, 2020

基于状态重要性采样的低方差离线评估

该论文介绍了一种名为 SIS 的基于状态的重要性采样方法，用于解决强化学习中 target policy 的评估问题，并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明，与传统的重要性采样、逐决策重要性采样和增量重要性采样相比，SIS 具有更小的方差和更高的精度。

Dec, 2022

基于参数探索的策略梯度中的高效样本重用

本文提出一种有效的基于参数探索的政策梯度算法，通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想，成功地降低了算法的方差，从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。

Jan, 2013

信息引导采样的优化学习

该研究提出了一种新的信息导向采样的方法，它适用于在线优化问题，通过学习部分反馈，决策者需要在探索和利用之间取得平衡。

Mar, 2014

并非所有样本都是相等的：使用重要性采样的深度学习

本研究提出了一种基于重要性采样的计算优化方案，该方案能够减少深度神经网络训练过程中冗余计算，提升模型的训练效果并有效降低损失。实验结果显示，该方案能够在相同的时间预算下，将训练损失降低一个数量级，并提高测试误差 5％至 17％。

Mar, 2018