批量量子强化学习
基于经验证据,本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型,研究了该模型在经典控制基准环境中的性能和可训练性,探讨了数据重新上传对这些指标的影响,并发现 VQC 在这种环境中具有适用性,且在逼近 2 设计时,增加量子比特数不会导致梯度的幅度和方差指数级递减。
Jan, 2024
本文提出了一种采用异步训练 QRL 代理的方法,具体选择了优势演员评论家变分量子策略的异步训练,并通过数值模拟证明,相对于采用相似模型大小和架构的经典代理,采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能
Jan, 2023
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法,该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性,并提出了用于选择适当的观测量的方法,以比较量子和经典 DQN 算法的性能.
Mar, 2021
本研究在 Atari 领域中利用单个部分训练的行为策略生成的数据对最近的离线策略和批量强化学习算法的性能进行了基准测试,并发现在这些条件下,许多算法表现不佳,而 Batch-Constrained Q-learning 算法适应离散动作环境后在这项任务中表现最佳。
Oct, 2019
本文研究了一类混合量子 - 经典强化学习算法 VQ-DQN,发现其容易受到不稳定性的影响。实验结果表明,尽管有观点认为量子计算可以比经典方法更具优势,但无法确定这种优势。</br>
Feb, 2022
本文研究了量子计算对强化学习问题的潜在帮助,通过量子演化电路来解决强化学习问题,提出了使经典数据编码成量子演化电路的技术,并探索了 DQN 和 Double DQN 的量子算法。结果表明,使用量子演化电路可以更好地解决强化学习任务。
Aug, 2020
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
Feb, 2021
本研究提出一种新颖的量子强化学习方法,将优势演员 - 评论家算法与变分量子电路结合,通过替代部分经典组件解决了强化学习可扩展性方面的问题,同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境,我们的结果表明,使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体,可以显著提高性能。结果进一步揭示了当前量子方法的局限性,指出了嘈杂中尺度量子计算机硬件约束的进一步研究,以扩展更大更复杂的控制任务的混合方法。
Jan, 2024
该研究论文介绍了量子计算在当前 NISQ 时代的限制,并提出了通过混合量子机器学习来改善量子计算架构的方法,重点是利用强化学习来优化当前的量子计算方法,并介绍了由量子架构搜索和量子电路优化引起的各种挑战,以及提出的用于学习控制一组万能量子门的具体框架,并提供基准结果以评估当前最先进算法的优点和短处。
Dec, 2023