直接关注损失调整的优先经验回放

Nov, 2023

直接关注损失调整的优先经验回放

Directly Attention Loss Adjusted Prioritized Experience Replay

Zhuoying Chen, Huiping Li, Zhaoxu Wang

TL;DR通过并行自注意力网络，直接量化改变的分布程度以准确补偿误差，并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性，多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。

Abstract

prioritized experience replay (PER) enables the model to learn more about relatively important samples by artificially changing their accessed frequencies. However, this non-uniform sampling method shifts the sta

prioritized experience replay artificially changing directly attention loss adjusted prioritized experience replay parallel self-attention network training efficiency

发现论文，激发创造

注意损失调整的优先经验回放

提出一种 Attention Loss Adjusted Prioritized (ALAP) Experience Replay 算法，结合改进的 Self-Attention 网络和 Double-Sampling 机制，用于拟合超参数以消除 Prioritized Experience Replay (PER) 引起的估计误差。通过与 value-function 基于、policy-gradient 基于以及多智能体强化学习算法在 OPENAI gym 上进行对比研究，验证了该算法的有效性和广泛适用性。

Sep, 2023

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

分布式优先经验回放的量子深度 Q 学习

本文介绍了 QDQN-DPER 框架，以提高量子强化学习（QRL）在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中，以减少高采样复杂度。数值模拟表明，QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。

Apr, 2023

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

大批次经验回放

本文将回放缓冲区采样问题看作梯度估计的重要采样问题，并提出了一种新的采样方案 LaBER，与 DQN、分布式 RL 和 actor-critic 方法相结合，能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。

Oct, 2021

MAC-PO: 基于集体优先级优化的多智能体经验回放

通过优化采样权重，将优先经验回放应用于多智能体强化学习 (MARL) 中，以最小化策略遗憾并获得更好的优先级方案，提高训练效率并在实验中表现出良好的效果。