热启动变分量子策略迭代

Apr, 2024

Warm-Start Variational Quantum Policy Iteration

Nico Meyer, Jakob Murauer, Alexander Popov, Christian Ufrecht, Axel Plinge...

TL;DR提出了可伸缩的变化量子策略迭代算法（WS-VarQPI），通过纳斯塔量子超强子程序来解决决策问题的线性系统，为潜在的量子计算机的优势奠定了基础。

Abstract

reinforcement learning is a powerful framework aiming to determine optimal behavior in highly complex decision-making scenarios. This objective can be achieved using policy iteration, which requires to solve a ty

reinforcement learning policy iteration variational quantum policy iteration nisq-compatible quantum-enhanced subroutine warm-start initialization variant

发现论文，激发创造

量子自然政策梯度：朝着样本有效的强化学习

使用变分量子电路作为函数逼近器，提出了量子自然策略梯度（Quantum Natural Policy Gradient，QNPG）算法。在 Contextual Bandits 环境中进行实验，证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性，从而减少了样本复杂度，并在 12 量子比特硬件设备上进行了训练。

Apr, 2023

变分量子深度 Q 网络的不稳定性分析

本文研究了一类混合量子 - 经典强化学习算法 VQ-DQN，发现其容易受到不稳定性的影响。实验结果表明，尽管有观点认为量子计算可以比经典方法更具优势，但无法确定这种优势。</br>

Feb, 2022

强化学习中变分量子电路的优化技术研究

量子计算通过减少可训练参数来提高机器学习效果，并且通过使用变分量子电路 (VQCs) 融合经典优化技术，研究人员致力于在噪声中等规模量子时代 (NISQ) 中，应用 VQCs 到强化学习中以减少参数并提高超参数稳定性及整体性能。

May, 2024

使用单光子量子行走进行强化学习和决策制定

本文研究将参数化的量子电路代替经典神经网络，应用于量子机器学习中的可变分子量子算法，并提出使用可调谐马赫 - 泽德干涉仪晶格的单光子量子行走来量子化项目模拟模型，并展示这种模型在强化学习任务上的表现优于其经典对应物，最后探讨了量子干涉在训练和决策过程中的作用。

Jan, 2023

基于模型的离线量子强化学习

这篇论文提出了第一种基于模型的离线量子强化学习算法，并在滑车杆平衡问题上展示了其功能。模型和待优化的策略都以变分量子电路的形式实现。通过梯度下降，模型被训练以拟合预先记录的数据集。策略使用无梯度优化方案，以模型给出的回报估计作为适应度函数进行优化。从原理上讲，这种基于模型的方法在优化阶段可以在量子计算机上完全实现，并有希望在具备足够强大的量子计算机时实现量子优势。

Apr, 2024

变分量子模拟：热启动理解案例研究

通过研究温起始对学习量子实时和虚时间演化中较短深度电路的影响，探索缓解荒漠高原现象的潜力和局限性。

Apr, 2024

用于深度强化学习的变分量子电路

本文研究了变分量子电路在深度强化学习中的应用，利用量子信息编码方案减少模型参数，用经验回放和目标网络重塑经典深度强化学习算法，成功证明了变分量子电路可以用于决策制定和政策选择强化学习，适用于许多即将到来的近期量子计算机。

Jun, 2019

VPE: 变分策略嵌入用于迁移强化学习

本文研究了如何在不同领域中转移知识和适应环境，提出了使用基于 Q 函数的方法来寻找一个可适应不同潜在变量值的主策略，使用低维潜在变量生成映射和近似后验概率来识别新任务的策略。并将该方法应用于模拟的摆起任务和推动任务的转移上。

Sep, 2018

用量子变分电路进行强化学习

本文研究了量子计算对强化学习问题的潜在帮助，通过量子演化电路来解决强化学习问题，提出了使经典数据编码成量子演化电路的技术，并探索了 DQN 和 Double DQN 的量子算法。结果表明，使用量子演化电路可以更好地解决强化学习任务。

Aug, 2020

强化学习辅助的量子优化

我们提出了一个基于强化学习的算法，用于量子近似优化算法（QAOA）内的量子反馈控制，能够基于局部信息选择控制参数，并实现了训练数据的小样本转移学习。

Apr, 2020