基于模型的离线量子强化学习
多智能体强化学习中的量子强化学习通过使用量子力学的内在属性降低了模型的可训练参数,我们基于无梯度量子强化学习的现有方法,并通过变分量子电路的树状方法提出了多智能体强化学习的方法,使用进化优化算法,我们在 Coin Game 环境中评估了我们的方法并将其与经典方法进行比较,研究表明我们的变分量子电路方法相比于具有相似可训练参数数量的神经网络表现出更好的性能,并且相对于更大的神经网络,我们的方法使用较少的参数实现类似的结果,减少了 97.88% 的参数。
Nov, 2023
本文研究了量子计算对强化学习问题的潜在帮助,通过量子演化电路来解决强化学习问题,提出了使经典数据编码成量子演化电路的技术,并探索了 DQN 和 Double DQN 的量子算法。结果表明,使用量子演化电路可以更好地解决强化学习任务。
Aug, 2020
使用变分量子电路作为函数逼近器,提出了量子自然策略梯度(Quantum Natural Policy Gradient,QNPG)算法。在 Contextual Bandits 环境中进行实验,证明 QNPG 相对于基于一阶的训练具有更快的收敛速度和稳定性,从而减少了样本复杂度,并在 12 量子比特硬件设备上进行了训练。
Apr, 2023
本文提出了一种采用异步训练 QRL 代理的方法,具体选择了优势演员评论家变分量子策略的异步训练,并通过数值模拟证明,相对于采用相似模型大小和架构的经典代理,采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能
Jan, 2023
我们提出了一种自适应的行动量化方案,通过使用 VQ-VAE 学习状态条件的行动量化,避免了行动空间的指数爆炸问题,并通过离线强化学习方法在基准测试中改进了性能,同时在 Robomimic 环境中的复杂机器人操作任务中,离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。
Oct, 2023
本研究提出一种新颖的量子强化学习方法,将优势演员 - 评论家算法与变分量子电路结合,通过替代部分经典组件解决了强化学习可扩展性方面的问题,同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境,我们的结果表明,使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体,可以显著提高性能。结果进一步揭示了当前量子方法的局限性,指出了嘈杂中尺度量子计算机硬件约束的进一步研究,以扩展更大更复杂的控制任务的混合方法。
Jan, 2024
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法,该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性,并提出了用于选择适当的观测量的方法,以比较量子和经典 DQN 算法的性能.
Mar, 2021
该研究使用 DQN 重放数据集研究了离线强化学习,提出了随机集合混合(REM)算法以促进泛化,得到比经过完全训练的 DQN 代理更好的结果。这表明,针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。
Jul, 2019