量子自然策略梯度
使用变分量子电路作为函数逼近器,提出了量子自然策略梯度(Quantum Natural Policy Gradient,QNPG)算法。在 Contextual Bandits 环境中进行实验,证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性,从而减少了样本复杂度,并在 12 量子比特硬件设备上进行了训练。
Apr, 2023
本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法,该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性,并提出了用于选择适当的观测量的方法,以比较量子和经典 DQN 算法的性能.
Mar, 2021
本研究旨在探究基于门型量子计算机的参数量子电路,通过集成最新的 Qiskit 和 PyTorch 框架,与纯经典深度神经网络进行比较,评估其在模型非自由强化学习问题中的潜力,以及在解决迷宫问题或其他强化学习问题方面、深度量子学习的前景。
Apr, 2023
本文介绍了一种基于保真度概率 Q 学习 (FPQL) 的方法,用于解决强化学习中探索和利用之间的平衡问题并应用于控制量子系统;该算法采用了保真度来指导学习过程,通过迭代更新每个状态下选择每个动作的概率,实现自然的探索策略而不是基于配置参数的指向性探索,且该算法在学习过程中可以避免局部最优策略从而加速学习过程。
Jun, 2018
研究了参数化量子电路为基础的强化学习策略的可训练性,发现拥有指数小梯度和梯度爆炸的标准荒原问题,以及这些现象与基态分区和分区映射相关,采用连续型分区的基态可以确保多项式数量的训练窗口和测量次数,该研究在多臂赌博机环境中进行了实证验证。
Jun, 2024
本文使用信息几何工具,定义了量子和经典神经网络的表达能力,将有效维度作为证明表达能力的新广义边界,并建立了一个强大的表达能力度量。我们展示了量子神经网络能够比相似的经典神经网络实现更好的有效维度,并因其更均匀分布的 Fisher 信息谱而显示了对枯燥的高原问题具有适应性并具有快速的训练能力。我们的工作是第一个通过更高的有效维度和更快的训练能力证明精心设计的量子神经网络优于经典神经网络的,并在实际量子硬件上进行了验证。
Oct, 2020
该论文提出了一种综合利用 Fisher 信息矩阵(Fisher Information Matrix)的端到端黑盒系统识别方法,以获得对动态重要性和整体模型结构的洞察。该方法通过在网络的第一层添加决策模块,并使用完整的 FIM 作为输入来确定相关性得分。然后,在输入和相关性得分的逐元素乘法上执行向前传播。仿真结果表明,该方法有效捕捉各种类型的动态之间的相互作用,优于现有方法的多项式相互作用限制。此外,该新方法在识别现实世界的工业系统,特别是 PH 中和过程方面的应用中的有效性得到了确认。
Jun, 2024
量子计算通过减少可训练参数来提高机器学习效果,并且通过使用变分量子电路 (VQCs) 融合经典优化技术,研究人员致力于在噪声中等规模量子时代 (NISQ) 中,应用 VQCs 到强化学习中以减少参数并提高超参数稳定性及整体性能。
May, 2024
本研究提出一种新颖的量子强化学习方法,将优势演员 - 评论家算法与变分量子电路结合,通过替代部分经典组件解决了强化学习可扩展性方面的问题,同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境,我们的结果表明,使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体,可以显著提高性能。结果进一步揭示了当前量子方法的局限性,指出了嘈杂中尺度量子计算机硬件约束的进一步研究,以扩展更大更复杂的控制任务的混合方法。
Jan, 2024