基于模型的离线量子强化学习

Apr, 2024

Model-based Offline Quantum Reinforcement Learning

Simon Eisenmann, Daniel Hein, Steffen Udluft, Thomas A. Runkler

TL;DR这篇论文提出了第一种基于模型的离线量子强化学习算法，并在滑车杆平衡问题上展示了其功能。模型和待优化的策略都以变分量子电路的形式实现。通过梯度下降，模型被训练以拟合预先记录的数据集。策略使用无梯度优化方案，以模型给出的回报估计作为适应度函数进行优化。从原理上讲，这种基于模型的方法在优化阶段可以在量子计算机上完全实现，并有希望在具备足够强大的量子计算机时实现量子优势。

Abstract

This paper presents the first algorithm for model-based offline quantum reinforcement learning and demonstrates its functionality on the cart-pole benchmark. The model and the policy to be optimized are each implemented as →

algorithm model-based offline quantum reinforcement learning variational quantum circuits gradient descent quantum advantage

发现论文，激发创造

多智能体量子强化学习基于进化优化

多智能体强化学习中的量子强化学习通过使用量子力学的内在属性降低了模型的可训练参数，我们基于无梯度量子强化学习的现有方法，并通过变分量子电路的树状方法提出了多智能体强化学习的方法，使用进化优化算法，我们在 Coin Game 环境中评估了我们的方法并将其与经典方法进行比较，研究表明我们的变分量子电路方法相比于具有相似可训练参数数量的神经网络表现出更好的性能，并且相对于更大的神经网络，我们的方法使用较少的参数实现类似的结果，减少了 97.88% 的参数。

Nov, 2023

用量子变分电路进行强化学习

本文研究了量子计算对强化学习问题的潜在帮助，通过量子演化电路来解决强化学习问题，提出了使经典数据编码成量子演化电路的技术，并探索了 DQN 和 Double DQN 的量子算法。结果表明，使用量子演化电路可以更好地解决强化学习任务。

Aug, 2020

量子自然政策梯度：朝着样本有效的强化学习

使用变分量子电路作为函数逼近器，提出了量子自然策略梯度（Quantum Natural Policy Gradient，QNPG）算法。在 Contextual Bandits 环境中进行实验，证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性，从而减少了样本复杂度，并在 12 量子比特硬件设备上进行了训练。

Apr, 2023

量子强化学习的异步训练

本文提出了一种采用异步训练 QRL 代理的方法，具体选择了优势演员评论家变分量子策略的异步训练，并通过数值模拟证明，相对于采用相似模型大小和架构的经典代理，采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能

Jan, 2023

机器人技能学习的动作量化离线强化学习

我们提出了一种自适应的行动量化方案，通过使用 VQ-VAE 学习状态条件的行动量化，避免了行动空间的指数爆炸问题，并通过离线强化学习方法在基准测试中改进了性能，同时在 Robomimic 环境中的复杂机器人操作任务中，离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。

Oct, 2023

量子优势演员 - 评论家强化学习

本研究提出一种新颖的量子强化学习方法，将优势演员 - 评论家算法与变分量子电路结合，通过替代部分经典组件解决了强化学习可扩展性方面的问题，同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境，我们的结果表明，使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体，可以显著提高性能。结果进一步揭示了当前量子方法的局限性，指出了嘈杂中尺度量子计算机硬件约束的进一步研究，以扩展更大更复杂的控制任务的混合方法。

Jan, 2024

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

Gym 中的量子代理：一种深度 Q-learning 的变分量子算法

本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法，该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性，并提出了用于选择适当的观测量的方法，以比较量子和经典 DQN 算法的性能.

Mar, 2021

强化学习辅助的量子优化

我们提出了一个基于强化学习的算法，用于量子近似优化算法（QAOA）内的量子反馈控制，能够基于局部信息选择控制参数，并实现了训练数据的小样本转移学习。

Apr, 2020

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019