基于模型的离散和连续行动规划
引入了一个针对具有连续状态和动作空间以及非高斯转移模型的随机域的模型学习和规划框架。该框架高效,因为只有在计划器需要它们时才估计局部模型;计划器集中于当前规划问题的最相关状态;计划器专注于信息最丰富和 / 或价值最高的动作。我们的理论分析显示了所提出方法的有效性和渐近最优性。在实验上,我们在模拟的多模式推动问题上展示了我们算法的有效性。
Jul, 2016
本文提出了一种使用神经网络模型 对连续动作空间离散化建模的方法,通过预测单个维度的方法对高维空间进行建模,实现了有效解决 高维连续控制问题 的技术,其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。
May, 2017
该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间,成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别,并比 2012 RoboCup 冠军代理更可靠地得分。
Nov, 2015
介绍了一种无模型算法,用于在具有参数化动作的马尔可夫决策过程中学习 - 离散动作具有连续参数。提出了用于在这些领域中学习的 Q-PAMDP 算法,并将其与 Platform 和 Goal-scoring 领域中的直接政策搜索进行比较。
Sep, 2015
本文研究了对连续控制中动作空间的离散化对于基于策略优化的影响,发现动作空间的离散化采用可分解动作分布的策略可以有效地解决离散动作数量的爆炸性增长,并且在复杂动态高维任务上可以通过在策略中使用序数参数化引入自然排序从而获得性能显著提升的优越表现。
Jan, 2019
本文提出了一种具有离散动作空间的树形结构之前所未有的强化学习方法, Policy Prediction Network, 该方法结合了模型自由与模型驱动强化学习,采用了经验证实的裁剪方法,实现了对连续动作空间的模型驱动学习并使其能够更好地适应 MuJoCo 环境等连续控制问题。
Sep, 2019
该研究论文介绍了一种统一的框架,利用潜在的、基于分数的扩散模型进行连续潜在行动空间的表示学习和规划,通过考虑预训练的扩散模型进行能量引导抽样,通过引入一种新颖的序列级别的精确抽样方法。所提出的方法在低维机动控制任务上表现出竞争性能,并在高维任务中超过了现有的方法。
Sep, 2023
在本文中,我们提出了一种带参数的深度 Q 网络(P-DQN)框架,用于处理混合行动空间,此算法无需任何逼近或者弛豫,充分发挥 DQN 和 DDPG 精神,并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。
Oct, 2018