在本文中,我们提出了一种带参数的深度 Q 网络(P-DQN)框架,用于处理混合行动空间,此算法无需任何逼近或者弛豫,充分发挥 DQN 和 DDPG 精神,并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。
Oct, 2018
本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题,提出了两个新算法:Deep Multi-Agent Parameterized Q-Networks(Deep MAPQN)和 Deep Multi-Agent Hierarchical Hybrid Q-Networks(Deep MAHHQN)。中心化训练,分散执行范例下的实证结果显示,Deep MAPQN 和 Deep MAHHQN 均更为有效,且远胜于现有独立深度参数化 Q 学习方法。
Mar, 2019
提出了一种名为 MP-DQN 的新方法来解决重要的问题,有效地解决了 P-DQN 在动作空间中处理所有动作参数的局限性,从而在增加数据效率方面得到显着改善,并在平台、机器人足球目标和半场进攻等领域取得了收敛策略表现显著优于 P-DQN 和其他传统算法。
May, 2019
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
介绍了一种无模型算法,用于在具有参数化动作的马尔可夫决策过程中学习 - 离散动作具有连续参数。提出了用于在这些领域中学习的 Q-PAMDP 算法,并将其与 Platform 和 Goal-scoring 领域中的直接政策搜索进行比较。
本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法,将大量离散行动嵌入到连续空间中,从而实现对大规模学习问题的解决。
Dec, 2015
本文提出了一种使用神经网络模型 对连续动作空间离散化建模的方法,通过预测单个维度的方法对高维空间进行建模,实现了有效解决 高维连续控制问题 的技术,其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。
May, 2017
本文提出了一种用于在参数化操作空间中进行强化学习的新型紧凑架构,并探讨了如何使用现有算法(TRPO, SVG)进行训练,结果表明这些方法在测试时优于当前最先进的方法 Parameterized Action DDPG。
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型,并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下,理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明,我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。
Apr, 2024