RL 代理体验的影响因素：高效估计经验的影响

May, 2024

RL 代理体验的影响因素：高效估计经验的影响

Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences

Takuya Hiraoka, Guanquan Wang, Takashi Onishi, Yoshimasa Tsuruoka

TL;DR本文介绍了一种高效估计经验影响的方法，Policy Iteration with Turn-over Dropout (PIToD)，并应用于改进表现不佳的强化学习代理，通过估计负面有影响的经验并删除它们的影响，显著提高了代理的性能。

Abstract

In reinforcement learning (RL) with experience replay, experiences stored in a replay buffer influence the RL agent's performance. Information about the influence of these experiences is valuable for various purp

reinforcement learning experience replay influence estimation policy iteration with turn-over dropout amendment of rl agents

发现论文，激发创造

哪些经历对您的代理有影响？具有离职随机删除的政策迭代

本文提出了 PI+ToD 方法来有效地评估经验的影响，该方法利用 Turn-Over Dropout 达到效率，实验结果表明其在 MuJoCo 环境中表现优秀。

Jan, 2023

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020

体验回放优化

提出了一种新的经验回放优化 (ERO) 框架来优化累积奖励，此方案交替更新两种策略：代理策略和回放策略，其中代理策略基于回放数据最大化累积奖励，而回放策略则提供代理经验最有用的经验，实验表明，此方案可以改进离线策略强化学习算法的性能。

Jun, 2019

深度多智能体强化学习的稳定经验回放

该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法，并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。

Feb, 2017

体验回放的基础知识重新审视

本文通过系统的分析和研究体验回放在 Q-learning 方法中的两个基本性质：回放容量和学习更新与经验收集的比率（回放比），颠覆了关于经验回放的传统认识。同时，本文也测量了控制回放比的重要性，并对表现优秀的算法进行了一系列的测试。

Jul, 2020

节俭的演员 - 评论家：使用独特经验的高效离策略深度强化学习

通过选择唯一的样本并将其添加到重放缓冲区，以减小缓冲区大小并保持样本的独立和等分布性的目标，本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集，将状态空间划分为一组抽象状态，并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外，我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明，与基准算法相比，我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小，同时实现更快的收敛或更好的奖励积累。

Feb, 2024

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

强化学习中记忆回放的影响

本研究提出了一种使用经验回放的深度强化学习模型，并通过 ODE 模型及实验进行研究发现，在适当的记忆大小下，可以加速学习并提高代理人的表现，但当记忆容量偏大或偏小时，学习反而变慢，同时也证明了优先重放经验不一定有助于提高代理人的学习效果。最后，我们提出了一种自适应调整记忆缓冲区大小的算法，其表现良好。

Oct, 2017

理解每步回放不同数量的影响

本研究从经验重放和模型的角度出发，对 Deep Q-Network 算法中回放量的变化对样本效率和算法健壮性的影响进行了系统性研究，在 Mountain Car 环境下获得了提高样本效率、降低性能波动、提高算法鲁棒性的结果，为算法应用方面提供了新的思路。

Feb, 2023

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022