Sep, 2023

注意损失调整的优先经验回放

TL;DR提出一种 Attention Loss Adjusted Prioritized (ALAP) Experience Replay 算法,结合改进的 Self-Attention 网络和 Double-Sampling 机制,用于拟合超参数以消除 Prioritized Experience Replay (PER) 引起的估计误差。通过与 value-function 基于、policy-gradient 基于以及多智能体强化学习算法在 OPENAI gym 上进行对比研究,验证了该算法的有效性和广泛适用性。