用量子变分电路进行强化学习

AAAIAug, 2020

Reinforcement Learning with Quantum Variational Circuits

Owen Lockwood, Mei Si

TL;DR本文研究了量子计算对强化学习问题的潜在帮助，通过量子演化电路来解决强化学习问题，提出了使经典数据编码成量子演化电路的技术，并探索了 DQN 和 Double DQN 的量子算法。结果表明，使用量子演化电路可以更好地解决强化学习任务。

Abstract

The development of quantum computational techniques has advanced greatly in recent years, parallel to the advancements in techniques for deep reinforcement learning. This work explores the potential for quantum computing to facilitate →

quantum computing reinforcement learning quantum machine learning superposition entanglement

发现论文，激发创造

用于深度强化学习的变分量子电路

本文研究了变分量子电路在深度强化学习中的应用，利用量子信息编码方案减少模型参数，用经验回放和目标网络重塑经典深度强化学习算法，成功证明了变分量子电路可以用于决策制定和政策选择强化学习，适用于许多即将到来的近期量子计算机。

Jun, 2019

Gym 中的量子代理：一种深度 Q-learning 的变分量子算法

本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法，该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性，并提出了用于选择适当的观测量的方法，以比较量子和经典 DQN 算法的性能.

Mar, 2021

强化学习中变分量子电路的优化技术研究

量子计算通过减少可训练参数来提高机器学习效果，并且通过使用变分量子电路 (VQCs) 融合经典优化技术，研究人员致力于在噪声中等规模量子时代 (NISQ) 中，应用 VQCs 到强化学习中以减少参数并提高超参数稳定性及整体性能。

May, 2024

变分量子深度 Q 网络的不稳定性分析

本文研究了一类混合量子 - 经典强化学习算法 VQ-DQN，发现其容易受到不稳定性的影响。实验结果表明，尽管有观点认为量子计算可以比经典方法更具优势，但无法确定这种优势。</br>

Feb, 2022

深度强化学习的量子电路优化

本研究使用基于强化学习的方法对量子电路进行优化，通过深度卷积神经网络，实现了对于特定架构的任意量子电路的自主学习及优化。对 12 比特电路进行实验得出优化效果，平均深度降低 27％，门数降低 15％，并探讨了方法在近期量子设备上的可行性。

Mar, 2021

混合量子神经网络的深度强化学习

本研究旨在探究基于门型量子计算机的参数量子电路，通过集成最新的 Qiskit 和 PyTorch 框架，与纯经典深度神经网络进行比较，评估其在模型非自由强化学习问题中的潜力，以及在解决迷宫问题或其他强化学习问题方面、深度量子学习的前景。

Apr, 2023

量子优势演员 - 评论家强化学习

本研究提出一种新颖的量子强化学习方法，将优势演员 - 评论家算法与变分量子电路结合，通过替代部分经典组件解决了强化学习可扩展性方面的问题，同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境，我们的结果表明，使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体，可以显著提高性能。结果进一步揭示了当前量子方法的局限性，指出了嘈杂中尺度量子计算机硬件约束的进一步研究，以扩展更大更复杂的控制任务的混合方法。

Jan, 2024

强化学习用于变分量子电路架构优化

本论文提出了一种基于强化学习的算法，能够自主探索合适的变分预测模型，同时最小化电路的深度并增加结果的精度，在锂氢分子比较经典的量子计算基准问题上取得了化学精度和最先进的电路深度优化结果。

Mar, 2021

量子强化学习的异步训练

本文提出了一种采用异步训练 QRL 代理的方法，具体选择了优势演员评论家变分量子策略的异步训练，并通过数值模拟证明，相对于采用相似模型大小和架构的经典代理，采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能

Jan, 2023

学习优化变分量子电路来解决组合问题

本文提出了两种基于机器学习的方法，采用强化学习 (RL) 框架和核密度估计 (KDE) 技术，分别用于优化 QAOA 电路，从小规模问题实例中学习，然后在较大的问题实例中使用，结果表明与其他现成的优化器相比，这两种方法可以将优化度缺口减少多达 30.15 个因子。

Nov, 2019