分布式优先经验回放的量子深度 Q 学习
本文提出了一种新的经验回放采样框架,旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题,同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 extensive set of experiments 上证明该方法比现有算法表现更好。
Sep, 2022
提出一种 Attention Loss Adjusted Prioritized (ALAP) Experience Replay 算法,结合改进的 Self-Attention 网络和 Double-Sampling 机制,用于拟合超参数以消除 Prioritized Experience Replay (PER) 引起的估计误差。通过与 value-function 基于、policy-gradient 基于以及多智能体强化学习算法在 OPENAI gym 上进行对比研究,验证了该算法的有效性和广泛适用性。
Sep, 2023
通过并行自注意力网络,直接量化改变的分布程度以准确补偿误差,并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性,多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。
Nov, 2023
本文介绍了 Deep Q-learning from Demonstrations(DQfD)算法,并探究其应用于真实环境下学习任务的可行性以及其在模拟环境和真实环境中的表现;同时,DQfD 算法通过采用优先重放机制以及组合时差更新和监督学习来利用少量演示数据显著加速学习过程。实验表明,DQfD 相较于其他三种相关算法在学习任务中具有更好的表现,并可通过人类演示数据来实现一些领先于其他算法的新的最优成果。
Apr, 2017
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
提出了一种名为动态经验重放(DER)的新技术,它允许强化学习算法不仅使用人类示范的经验重放样本,还使用训练期间由 RL 代理生成的成功转移,因此提高了训练效率,并演示了该方法在机器人紧密配合关节装配任务上的应用。在两项不同的任务中进行实验,并比较不同的重放缓冲区结构和 DER 在其中的影响。
Mar, 2020
本文提出了一种新颖的量子强化学习算法,通过将量子理论和强化学习相结合,引入了价值更新算法框架,通过概率幅度并行更新以达到在探索和利用之间取得良好平衡,并加速学习。经实验验证,该方法在一些复杂问题中表现出优越性和实用性,是量子计算在人工智能应用方面的有效探索。
Oct, 2008
本文提出了一种采用异步训练 QRL 代理的方法,具体选择了优势演员评论家变分量子策略的异步训练,并通过数值模拟证明,相对于采用相似模型大小和架构的经典代理,采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能
Jan, 2023