量子多智能体元强化学习
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023
本文介绍了一种新型的基于量子机器学习的自主多无人机控制框架 - 量子多无人机强化学习框架,并在该框架下经过充分的训练和分析,实现了合理的回报收敛和服务质量表现,具有更稳定的训练结果及优秀的训练过程分析功能。
Nov, 2022
提出了一种名为 eQMARL 的新型框架,通过量子通道促进协作,并通过量子纠缠的分裂评论家消除本地观察共享,实验结果表明,eQMARL 相较于传统的分裂和完全中心化的经典和量子基线,能够在更短的时间内收敛到合作策略,且拥有更高的整体分数,与传统的分裂经典基线相比,eQMARL 只需要少于 25 倍的中心化参数。
May, 2024
本文介绍了使用量子循环神经网络和深度 Q-learning 算法来解决部分可观察环境中的量子强化学习问题,并且在数值模拟中证明了该方法在标准基准测试如 Cart-Pole 中的结果比经典 DRQN 更加稳定和具有更高的平均分数。
Oct, 2022
Meta-Q-Learning (MQL) 是一种新的离线策略算法,它建立在三个简单的思想之上:使用过去轨迹的表示作为上下文变量可以使 Q-learning 与最先进的元 RL 算法相竞争;最大化训练任务的平均奖励的多任务目标是元训练 RL 策略的有效方法;从元训练回放缓冲区中获取的过去数据可以通过非策略更新来适应新任务,MQL 借鉴了势估计的思想,从而增加了可用于适应的数据量。实验表明,与元 RL 的最新技术相比,MQL 在标准的连续控制基准测试中表现得更好。
Sep, 2019
本文提出了一种采用异步训练 QRL 代理的方法,具体选择了优势演员评论家变分量子策略的异步训练,并通过数值模拟证明,相对于采用相似模型大小和架构的经典代理,采用异步训练 QRL 代理在考虑的任务中可以达到相似或更高的性能
Jan, 2023
本文提出了基于 HARL 算法的新框架 HAML,将多智能体强化学习的合作扩展到异构智能体模式,并对该框架下的多种算法进行了验证和比较。测试表明,HARL 算法在协调异构智能体方面的稳定性和有效性要优于现有的 MA 对应物。
Apr, 2023
本文介绍了一种用于解决离散和连续状态空间的 RL 任务的训练方法,该方法基于深度 Q-learning 算法。研究通过消融研究探究了量子 Q-learning 算法的体系结构选择对于成功解决某些环境的重要性,并提出了用于选择适当的观测量的方法,以比较量子和经典 DQN 算法的性能.
Mar, 2021
本文提出了一种新颖的量子强化学习算法,通过将量子理论和强化学习相结合,引入了价值更新算法框架,通过概率幅度并行更新以达到在探索和利用之间取得良好平衡,并加速学习。经实验验证,该方法在一些复杂问题中表现出优越性和实用性,是量子计算在人工智能应用方面的有效探索。
Oct, 2008
本文提出了一种新的多智能体强化学习方法 MAGnet,将深度强化学习、自我关注机制、神经网络结构等技术应用于 Pommerman 游戏,实验结果表明,MAGnet 在该游戏中显著优于现有的 MARL 解决方案,如 DQN,MADDPG 和 MCTS 等。
Nov, 2018