变分量子深度 Q 网络的不稳定性分析

Feb, 2022

变分量子深度 Q 网络的不稳定性分析

Uncovering Instabilities in Variational-Quantum Deep Q-Networks

Maja Franz, Lucas Wolf, Maniraman Periyasamy, Christian Ufrecht, Daniel D. Scherer...

TL;DR本文研究了一类混合量子 - 经典强化学习算法 VQ-DQN，发现其容易受到不稳定性的影响。实验结果表明，尽管有观点认为量子计算可以比经典方法更具优势，但无法确定这种优势。</br>

Abstract

deep reinforcement learning (RL) has considerably advanced over the past decade. At the same time, state-of-the-art RL algorithms require a large computational budget in terms of training time to converge. Recent work has started to approach this problem through the lens of

deep reinforcement learning quantum computing variational quantum deep q-networks instabilities quantum processing unit

发现论文，激发创造

Gym 中的量子代理：一种深度 Q-learning 的变分量子算法

本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法，该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性，并提出了用于选择适当的观测量的方法，以比较量子和经典 DQN 算法的性能.

Mar, 2021

用量子变分电路进行强化学习

本文研究了量子计算对强化学习问题的潜在帮助，通过量子演化电路来解决强化学习问题，提出了使经典数据编码成量子演化电路的技术，并探索了 DQN 和 Double DQN 的量子算法。结果表明，使用量子演化电路可以更好地解决强化学习任务。

Aug, 2020

用于深度强化学习的变分量子电路

本文研究了变分量子电路在深度强化学习中的应用，利用量子信息编码方案减少模型参数，用经验回放和目标网络重塑经典深度强化学习算法，成功证明了变分量子电路可以用于决策制定和政策选择强化学习，适用于许多即将到来的近期量子计算机。

Jun, 2019

基于 VQC 的数据重上传强化学习：性能和可训练性

基于经验证据，本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型，研究了该模型在经典控制基准环境中的性能和可训练性，探讨了数据重新上传对这些指标的影响，并发现 VQC 在这种环境中具有适用性，且在逼近 2 设计时，增加量子比特数不会导致梯度的幅度和方差指数级递减。

Jan, 2024

量子强化学习的异步训练

本文提出了一种采用异步训练 QRL 代理的方法，具体选择了优势演员评论家变分量子策略的异步训练，并通过数值模拟证明，相对于采用相似模型大小和架构的经典代理，采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能

Jan, 2023

强化学习中变分量子电路的优化技术研究

量子计算通过减少可训练参数来提高机器学习效果，并且通过使用变分量子电路 (VQCs) 融合经典优化技术，研究人员致力于在噪声中等规模量子时代 (NISQ) 中，应用 VQCs 到强化学习中以减少参数并提高超参数稳定性及整体性能。

May, 2024

量子深度循环强化学习

本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题，并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。

Oct, 2022

混合量子神经网络的深度强化学习

本研究旨在探究基于门型量子计算机的参数量子电路，通过集成最新的 Qiskit 和 PyTorch 框架，与纯经典深度神经网络进行比较，评估其在模型非自由强化学习问题中的潜力，以及在解决迷宫问题或其他强化学习问题方面、深度量子学习的前景。

Apr, 2023

多智能体量子强化学习基于进化优化

多智能体强化学习中的量子强化学习通过使用量子力学的内在属性降低了模型的可训练参数，我们基于无梯度量子强化学习的现有方法，并通过变分量子电路的树状方法提出了多智能体强化学习的方法，使用进化优化算法，我们在 Coin Game 环境中评估了我们的方法并将其与经典方法进行比较，研究表明我们的变分量子电路方法相比于具有相似可训练参数数量的神经网络表现出更好的性能，并且相对于更大的神经网络，我们的方法使用较少的参数实现类似的结果，减少了 97.88% 的参数。

Nov, 2023

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法，通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。

Oct, 2022