本研究提出了一种名为 RMIX 的协作多智能体强化学习算法,使用条件风险价值(CVaR)测量个体 Q 值的学习分布,优化 CVaR 策略,并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布,提高了 StarCraft II 任务结果的协调和样本效率。
Feb, 2021
基于量子供应链,并结合多智能体强化学习和量子优势,提出了一种能够实现多智能体合作、有效利用参数和快速收敛的量子 MARL 算法,并引入了投影值测量技术来进一步提高可伸缩性。
Aug, 2023
使用累积概率理论(CPT)的分布式采样型 actor-critic(AC)算法为网络聚合式马尔科夫博弈(NAMG)引入风险敏感性,实现主观感知的马尔科夫最优纳什均衡。实验结果表明,通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不同,具有更高的损失规避倾向的智能体在 NAMG 中更倾向于社会隔离。
Feb, 2024
本论文扩展了之前的研究,提出了一种能够使用 Max、Nash 和 Maximin 策略学习各种 Q 向量的深度 Q 网络(DQN)算法,并在双机械臂合作举起锅的环境中展示了这种方法的有效性。
Jun, 2024
本文提出了一种可行的分布式学习框架来处理多智能体协作强化学习中的信任问题,这种方法使用图的结构描述不同类型的多智能体之间的关系,并提出了两种基于本地价值函数的分布式 Reinforcement Learning (RL) 方法,能够在保证有效性的前提下,大幅减少采样复杂性。
Feb, 2022
提出了一种适用于基于数字孪生的无线网络的离线多智能体保守分位回归 (MA-CQR) 方案,通过集成分布式强化学习和保守 Q 学习来解决环境的内在的随机性不确定性和数据有限性导致的认识不确定性。在无人机网络中应用该方案,展示了其对轨迹规划问题的优势。
本文提出了一种分布式强化学习算法,该算法使用直接协调图和局部值函数,通过零阶优化方法进行条件估计,没有使用任何共识算法。与现有的基于零阶优化的强化学习算法相比,我们的算法保证了高可扩展性。
Jan, 2022
多主体系统中的风险敏感协调要求和风险测量的多主体强化学习方法。
Nov, 2023
研究了去中心化的多智能体强化学习算法,引入了对抗性智能体对共识更新的漏洞,并提出了一种算法,使得非对抗性智能体在受限制的情况下达成共识。
May, 2023
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
Mar, 2019