可减损失下的强化学习样本优先级

Aug, 2022

可减损失下的强化学习样本优先级

Prioritizing Samples in Reinforcement Learning with Reducible Loss

Shivakanth Sujit, Somjit Nath, Pedro H. M. Braga, Samira Ebrahimi Kahou

TL;DR本文提出了一种基于可学习性的样本优先级算法，能够更好地在经验回放中利用重要样本，并证明该算法优于随机抽样和传统的以训练损失率为优先级指标的方法。

Abstract

Most reinforcement learning algorithms take advantage of an experience replay buffer to repeatedly train on samples the agent has observed in the past. Not all samples carry the same amount of significance and simply assigning equal importance to each of the samples is a naïve strategy

reinforcement learning experience replay buffer sample prioritization training loss robustness

发现论文，激发创造

强化学习中的样本重要性加权转移

本篇论文提出了一种基于模型的技术，在传输体验样本时自动估算每个样本与给定目标任务的关联性，以及在 RL 问题中使用重要性权重来解决负迁移问题，模型的结果经实验证明比目前最新的方法具有更好的学习性能和抗差能力。

May, 2018

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Oct, 2021

基于梯度的在线持续学习样本选择

本文提出了一种控制遗忘的连续学习方法，通过基于有约束优化的观点来选择回放缓冲区的样本，以减少学习中遗忘的现象，并且与其他基于任务边界的现有方法进行了比较。

Mar, 2019

深度神经网络模型中样本的学习能力比较

本文提出了一种测量深度学习模型中样本可学习性的方法，并实验证明，该方法在不同的深度学习模型中均具有高度的线性相关性，从而有助于了解数据的特性并改进训练的课程设置。

Jan, 2019

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

数量与质量：探究样本量与标签可靠性之间的权衡

研究在概率领域学习中标签质量的优化问题，提出了在有限训练预算下，是否应优先使用重采样策略提高训练数据的标签质量还是扩大数据集；并证明在人工标注的过程中这一策略可以取得更好的分类器性能，在此基础上提出了两种不同的验证方案。

Apr, 2022

并非所有样本都是相等的：使用重要性采样的深度学习

本研究提出了一种基于重要性采样的计算优化方案，该方案能够减少深度神经网络训练过程中冗余计算，提升模型的训练效果并有效降低损失。实验结果显示，该方案能够在相同的时间预算下，将训练损失降低一个数量级，并提高测试误差 5％至 17％。

Mar, 2018

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

面向离线强化学习的价值感知重要性加权

本文提出了一种基于价值感知的重要性权重方法，可用于增强学习的离线预测模型，并在实验中进行了评估。

Jun, 2023