增强强化学习的量子启发式组合优化算法

ICMLFeb, 2020

增强强化学习的量子启发式组合优化算法

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Dmitrii Beloborodov, A. E. Ulanov, Jakob N. Foerster, Shimon Whiteson, A. I. Lvovsky

TL;DR本文提出了一种基于量子启发式算法 + 强化学习的方法，在解决 Ising 能量最小化问题方面，该方法通过调整其中一个参数以改进最近看到的解，并使用一种新的 Rescaled Rank Reward (R3) 方法来提高稳定的自我博弈训练效果。训练后可在任何问题实例中采样高质量的解，并优于基线启发式和黑盒超参数优化方法。

Abstract

Quantum hardware and quantum-inspired algorithms are becoming increasingly popular for combinatorial optimization. However, these algorithms may require careful hyperparameter tuning for each problem instance. We use a reinforcement learning agent in conjunction with a →

quantum-inspired algorithm reinforcement learning ising energy minimization problem hyperparameter tuning transfer learning

发现论文，激发创造

强化学习辅助的量子优化

我们提出了一个基于强化学习的算法，用于量子近似优化算法（QAOA）内的量子反馈控制，能够基于局部信息选择控制参数，并实现了训练数据的小样本转移学习。

Apr, 2020

强化学习的组合探索优化

在解决复杂优化问题方面，探索式组合优化（ECO-DQN）通过连续改进解决方案，从而有效地学习有效的启发式方法来解决图上的组合优化问题，并在最大割问题上展示了最先进的强化学习性能。

Sep, 2019

多智能体量子强化学习基于进化优化

多智能体强化学习中的量子强化学习通过使用量子力学的内在属性降低了模型的可训练参数，我们基于无梯度量子强化学习的现有方法，并通过变分量子电路的树状方法提出了多智能体强化学习的方法，使用进化优化算法，我们在 Coin Game 环境中评估了我们的方法并将其与经典方法进行比较，研究表明我们的变分量子电路方法相比于具有相似可训练参数数量的神经网络表现出更好的性能，并且相对于更大的神经网络，我们的方法使用较少的参数实现类似的结果，减少了 97.88% 的参数。

Nov, 2023

基于哈密顿量的量子强化学习用于神经计算组合优化

基于 Hamiltonian 的量子强化学习（QRL）是将量子计算与神经组合优化相结合的一种方法，通过对组合优化问题的 Hamiltonian 公式建模，拥有较好的训练性能，适用于广泛的问题类别，并与 QAOA 进行了比较。

May, 2024

深度强化学习的量子电路优化

本研究使用基于强化学习的方法对量子电路进行优化，通过深度卷积神经网络，实现了对于特定架构的任意量子电路的自主学习及优化。对 12 比特电路进行实验得出优化效果，平均深度降低 27％，门数降低 15％，并探讨了方法在近期量子设备上的可行性。

Mar, 2021

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

通过深度强化学习实现通用量子控制

提出一种新的量子控制框架，通过在强化学习智能体的训练环境中加入控制噪声，利用强化学习技术优化量子计算的速度和保真度以及对泄漏和随机控制误差的抗扰性，最终取得了一定的优化成果。

Mar, 2018

强化学习辅助的递归 QAOA

设计出更好的用于组合优化的量子算法，结合强化学习增强递归 QAOA 表现，与传统 QAOA 相比，表现更好。

Jul, 2022

量子计算中强化学习的挑战

该研究论文介绍了量子计算在当前 NISQ 时代的限制，并提出了通过混合量子机器学习来改善量子计算架构的方法，重点是利用强化学习来优化当前的量子计算方法，并介绍了由量子架构搜索和量子电路优化引起的各种挑战，以及提出的用于学习控制一组万能量子门的具体框架，并提供基准结果以评估当前最先进算法的优点和短处。

Dec, 2023

量子自然政策梯度：朝着样本有效的强化学习

使用变分量子电路作为函数逼近器，提出了量子自然策略梯度（Quantum Natural Policy Gradient，QNPG）算法。在 Contextual Bandits 环境中进行实验，证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性，从而减少了样本复杂度，并在 12 量子比特硬件设备上进行了训练。

Apr, 2023