量子强化学习的异步训练
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法,该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性,并提出了用于选择适当的观测量的方法,以比较量子和经典 DQN 算法的性能.
Mar, 2021
该研究论文介绍了量子计算在当前 NISQ 时代的限制,并提出了通过混合量子机器学习来改善量子计算架构的方法,重点是利用强化学习来优化当前的量子计算方法,并介绍了由量子架构搜索和量子电路优化引起的各种挑战,以及提出的用于学习控制一组万能量子门的具体框架,并提供基准结果以评估当前最先进算法的优点和短处。
Dec, 2023
本文研究了量子计算对强化学习问题的潜在帮助,通过量子演化电路来解决强化学习问题,提出了使经典数据编码成量子演化电路的技术,并探索了 DQN 和 Double DQN 的量子算法。结果表明,使用量子演化电路可以更好地解决强化学习任务。
Aug, 2020
本文提出了一种新颖的量子强化学习算法,通过将量子理论和强化学习相结合,引入了价值更新算法框架,通过概率幅度并行更新以达到在探索和利用之间取得良好平衡,并加速学习。经实验验证,该方法在一些复杂问题中表现出优越性和实用性,是量子计算在人工智能应用方面的有效探索。
Oct, 2008
本研究提出一种新颖的量子强化学习方法,将优势演员 - 评论家算法与变分量子电路结合,通过替代部分经典组件解决了强化学习可扩展性方面的问题,同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境,我们的结果表明,使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体,可以显著提高性能。结果进一步揭示了当前量子方法的局限性,指出了嘈杂中尺度量子计算机硬件约束的进一步研究,以扩展更大更复杂的控制任务的混合方法。
Jan, 2024
基于经验证据,本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型,研究了该模型在经典控制基准环境中的性能和可训练性,探讨了数据重新上传对这些指标的影响,并发现 VQC 在这种环境中具有适用性,且在逼近 2 设计时,增加量子比特数不会导致梯度的幅度和方差指数级递减。
Jan, 2024
该研究论文提出了一种基于量子计算的 VQC 算法结合数据重载方案的批量 RL 算法,并在 OpenAI CartPole 环境下与基于神经网络的离散 BCQ 算法进行了比较,证明了其在效率上的优势。
Apr, 2023
多智能体强化学习中的量子强化学习通过使用量子力学的内在属性降低了模型的可训练参数,我们基于无梯度量子强化学习的现有方法,并通过变分量子电路的树状方法提出了多智能体强化学习的方法,使用进化优化算法,我们在 Coin Game 环境中评估了我们的方法并将其与经典方法进行比较,研究表明我们的变分量子电路方法相比于具有相似可训练参数数量的神经网络表现出更好的性能,并且相对于更大的神经网络,我们的方法使用较少的参数实现类似的结果,减少了 97.88% 的参数。
Nov, 2023
通过构建基于 QRNN 的储层,并利用 QLSTM 构建量子强化学习代理,本文提出了一种新方法以应对 QRNN 在 QRL 中训练低效的挑战,并使用异步优势演员 - 评论家算法进行训练。通过数值模拟验证了 QLSTM-Reservoir RL 框架的有效性,并通过与完全训练的 QLSTM RL 模型在相同架构和训练设置下的性能进行评估。
Sep, 2023