注意损失调整的优先经验回放

Sep, 2023

Attention Loss Adjusted Prioritized Experience Replay

Zhuoying Chen, Huiping Li, Rizhong Wang

TL;DR提出一种 Attention Loss Adjusted Prioritized (ALAP) Experience Replay 算法，结合改进的 Self-Attention 网络和 Double-Sampling 机制，用于拟合超参数以消除 Prioritized Experience Replay (PER) 引起的估计误差。通过与 value-function 基于、policy-gradient 基于以及多智能体强化学习算法在 OPENAI gym 上进行对比研究，验证了该算法的有效性和广泛适用性。

Abstract

prioritized experience replay (PER) is a technical means of deep reinforcement learning by selecting experience samples with more knowledge quantity to improve the training rate of neural network. However, the non-uniform sampling used in PER inevitably shifts the state-action space di

prioritized experience replay deep reinforcement learning attention loss adjusted prioritized (alap)self-attention network estimation error

发现论文，激发创造

直接关注损失调整的优先经验回放

通过并行自注意力网络，直接量化改变的分布程度以准确补偿误差，并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性，多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。

Nov, 2023

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

损失函数与非均匀采样在经验重放中的等效性

本研究使用优先经验回放（PER）解决深度强化学习中样本分布不均衡问题，通过等价变换使得非均衡损失函数拥有与均衡损失函数相同的梯度，并在 MuJoCo 和 Atari 环境中验证了其优越性。

Jul, 2020

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Oct, 2021

分布式优先经验回放的量子深度 Q 学习

本文介绍了 QDQN-DPER 框架，以提高量子强化学习（QRL）在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中，以减少高采样复杂度。数值模拟表明，QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。

Apr, 2023

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

离线优先经验回放

提出了一种基于优先重现经验的离线强化学习算法，通过一类设计良好的优先级函数来更频繁地访问高回报的转移，从而缓解了分布移位问题并提高了算法性能。

Jun, 2023

MAC-PO: 基于集体优先级优化的多智能体经验回放

通过优化采样权重，将优先经验回放应用于多智能体强化学习 (MARL) 中，以最小化策略遗憾并获得更好的优先级方案，提高训练效率并在实验中表现出良好的效果。

Feb, 2023

使用无似然权重的经验回放

本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法，使用无需概率密度函数的估算器来指定优先级权重，将此方法应用于两种竞争性强的学习算法（软演员 - 评论家（SAC）和 Twin Delayed 深度确定性策略梯度（TD3）），在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。

Jun, 2020