分布式优先经验回放的量子深度 Q 学习

Apr, 2023

分布式优先经验回放的量子深度 Q 学习

Quantum deep Q learning with distributed prioritized experience replay

Samuel Yen-Chi Chen

TL;DR本文介绍了 QDQN-DPER 框架，以提高量子强化学习（QRL）在解决顺序决策任务中的效率。框架将优先经验回放和异步训练结合到训练算法中，以减少高采样复杂度。数值模拟表明，QDQN-DPER 比具有相同模型架构的基线分布式量子 Q 学习表现更好。该提议的框架在保持训练效率的同时具有更复杂的任务潜力。

Abstract

This paper introduces the qdqn-dper framework to enhance the efficiency of quantum reinforcement learning (QRL) in solving sequential decision tasks. The framework incorporates →

quantum reinforcement learning qdqn-dper prioritized experience replay asynchronous training training efficiency

发现论文，激发创造

演员优先的经验回放

本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。

Sep, 2022

优先经验回放

本文介绍一种优先回放经验的机制，使用该机制在深度 Q 网络中进行增强学习，提高了在 Atari 游戏中的学习效率，超过了其他方法，成为了最新的最先进方法。

Nov, 2015

分布式优先经验回放

本文中，我们提出了一个分布式深度强化学习架构，可以使代理能够有效地从数量级更多的数据中学习，其中优先经验回放是实现高性能的关键因素。

Mar, 2018

注意损失调整的优先经验回放

提出一种 Attention Loss Adjusted Prioritized (ALAP) Experience Replay 算法，结合改进的 Self-Attention 网络和 Double-Sampling 机制，用于拟合超参数以消除 Prioritized Experience Replay (PER) 引起的估计误差。通过与 value-function 基于、policy-gradient 基于以及多智能体强化学习算法在 OPENAI gym 上进行对比研究，验证了该算法的有效性和广泛适用性。

Sep, 2023

直接关注损失调整的优先经验回放

通过并行自注意力网络，直接量化改变的分布程度以准确补偿误差，并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性，多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。

Nov, 2023

演示中的深度 Q 学习

本文介绍了 Deep Q-learning from Demonstrations（DQfD）算法，并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现；同时，DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明，DQfD 相较于其他三种相关算法在学习任务中具有更好的表现，并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。

Apr, 2017

量子深度循环强化学习

本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题，并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。

Oct, 2022

动态体验回放

提出了一种名为动态经验重放（DER）的新技术，它允许强化学习算法不仅使用人类示范的经验重放样本，还使用训练期间由 RL 代理生成的成功转移，因此提高了训练效率，并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验，并比较不同的重放缓冲区结构和 DER 在其中的影响。

Mar, 2020

量子强化学习

本文提出了一种新颖的量子强化学习算法，通过将量子理论和强化学习相结合，引入了价值更新算法框架，通过概率幅度并行更新以达到在探索和利用之间取得良好平衡，并加速学习。经实验验证，该方法在一些复杂问题中表现出优越性和实用性，是量子计算在人工智能应用方面的有效探索。

Oct, 2008

量子强化学习的异步训练

本文提出了一种采用异步训练 QRL 代理的方法，具体选择了优势演员评论家变分量子策略的异步训练，并通过数值模拟证明，相对于采用相似模型大小和架构的经典代理，采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能

Jan, 2023