损失函数与非均匀采样在经验重放中的等效性
提出一种 Attention Loss Adjusted Prioritized (ALAP) Experience Replay 算法,结合改进的 Self-Attention 网络和 Double-Sampling 机制,用于拟合超参数以消除 Prioritized Experience Replay (PER) 引起的估计误差。通过与 value-function 基于、policy-gradient 基于以及多智能体强化学习算法在 OPENAI gym 上进行对比研究,验证了该算法的有效性和广泛适用性。
Sep, 2023
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。
Sep, 2022
本文将回放缓冲区采样问题看作梯度估计的重要采样问题,并提出了一种新的采样方案 LaBER,与 DQN、分布式 RL 和 actor-critic 方法相结合,能够在 Atari 游戏和 PyBullet 环境中提供比其他优先级方案更好的性能。
Oct, 2021
通过并行自注意力网络,直接量化改变的分布程度以准确补偿误差,并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性,多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。
Nov, 2023
本文提出了一种新算法 CUER,该算法在考虑所有其他经验的公平性的同时,通过使采样状态分布更接近于策略,以解决经验回放中转换重要性动态调整的问题,从而在样本效率、最终性能和训练期间策略的稳定性方面显著提高离策略连续控制算法。
Jun, 2024
本文介绍了 QDQN-DPER 框架,以提高量子强化学习(QRL)在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中,以减少高采样复杂度。数值模拟表明,QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。
Apr, 2023
本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员 - 评论家(SAC)和 Twin Delayed 深度确定性策略梯度(TD3)),在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。
Jun, 2020
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017