我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型,并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下,理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明,我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。
Apr, 2024
该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间,成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别,并比 2012 RoboCup 冠军代理更可靠地得分。
Nov, 2015
提出了一种名为 MP-DQN 的新方法来解决重要的问题,有效地解决了 P-DQN 在动作空间中处理所有动作参数的局限性,从而在增加数据效率方面得到显着改善,并在平台、机器人足球目标和半场进攻等领域取得了收敛策略表现显著优于 P-DQN 和其他传统算法。
May, 2019
本篇论文针对协同多智能体问题中的 “离散 - 连续混合动作空间” 这一实际难题,提出了两个新算法:Deep Multi-Agent Parameterized Q-Networks(Deep MAPQN)和 Deep Multi-Agent Hierarchical Hybrid Q-Networks(Deep MAHHQN)。中心化训练,分散执行范例下的实证结果显示,Deep MAPQN 和 Deep MAHHQN 均更为有效,且远胜于现有独立深度参数化 Q 学习方法。
Mar, 2019
在本文中,我们提出了一种带参数的深度 Q 网络(P-DQN)框架,用于处理混合行动空间,此算法无需任何逼近或者弛豫,充分发挥 DQN 和 DDPG 精神,并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。
Oct, 2018
在这项研究中,我们研究了将低秩马尔可夫决策过程(MDPs)的方法扩展到具有连续动作的情况,并探索了多种具体方法。我们以 FLAMBE 算法作为案例研究,表明在动作允许连续的情况下,得到了类似的 PAC 界限。
Nov, 2023
本文介绍了一种使用前向模型的行动计划方法,在离散动作空间中通过反向传播实现规划,使用参数化的动作向量和输入噪声,同时使用策略蒸馏方法,性能优于模型自由 RL 和离散计划方法,可以应用于离散和连续动作空间的模型控制任务。
May, 2017
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
本文提出了一种采用马尔可夫决策过程(MDP)的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略,同时开发了一个转移模型估计器来优化数据利用,实验结果表明该算法在自适应学习领域有着较高的效率。
Apr, 2020
本文运用离散事件系统监控控制理论的概念,提出一种方法用于在有限状态的马尔可夫决策过程中,学习最优控制策略,并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
Jan, 2022