参数化动作空间中的混合演员 - 评论家强化学习
本文提出了一种用于在参数化操作空间中进行强化学习的新型紧凑架构,并探讨了如何使用现有算法(TRPO, SVG)进行训练,结果表明这些方法在测试时优于当前最先进的方法 Parameterized Action DDPG。
Oct, 2018
本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题,并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。
Aug, 2022
在本文中,我们提出了一种带参数的深度 Q 网络(P-DQN)框架,用于处理混合行动空间,此算法无需任何逼近或者弛豫,充分发挥 DQN 和 DDPG 精神,并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。
Oct, 2018
提出了一种基于最大熵的深度多智能体混合软演员评论家算法(MAHSAC),该算法通过中心化训练但分散执行的范例来处理多智能体环境中的混合行动空间问题,在连续观察和离散行动空间的多智能体粒子世界中运行实验,结果表明 MAHSAC 在培训速度、稳定性和抗干扰能力方面表现良好,并且在合作场景和竞争场景中胜过现有的独立深度混合学习方法。
Jun, 2022
本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题,提出了两个新算法:Deep Multi-Agent Parameterized Q-Networks(Deep MAPQN)和 Deep Multi-Agent Hierarchical Hybrid Q-Networks(Deep MAHHQN)。中心化训练,分散执行范例下的实证结果显示,Deep MAPQN 和 Deep MAHHQN 均更为有效,且远胜于现有独立深度参数化 Q 学习方法。
Mar, 2019
本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色,并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。
Oct, 2018
提出了一种名为 MP-DQN 的新方法来解决重要的问题,有效地解决了 P-DQN 在动作空间中处理所有动作参数的局限性,从而在增加数据效率方面得到显着改善,并在平台、机器人足球目标和半场进攻等领域取得了收敛策略表现显著优于 P-DQN 和其他传统算法。
May, 2019
该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间,成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别,并比 2012 RoboCup 冠军代理更可靠地得分。
Nov, 2015
本文提出了一种基于 actor-critic 算法的多智能体学习方法,可以让一组异构代理学习无人机覆盖未知环境的分散控制策略,此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。
Oct, 2020
本研究探讨了使用机器人行动原语以改善强化学习代理的难度探索和性能,并提出了一种新的界面设计,将学习参数化行动原语的 RL 策略与机器人的交互结合起来,最终在三个不同的领域、图像输入和稀疏终端奖励下,显著提高了学习效率和任务性能。
Oct, 2021