我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型,并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下,理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明,我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。
Apr, 2024
应用鲁棒 MDPs 框架及引入一种新型的学习过渡模型,该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性,并在实验中展示了该模型在失真 MDPs 中提高学习策略性能的显著改进。
Jun, 2024
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
通过使用形式化的马尔科夫决策过程抽象和转换,以自动产生解释的方式,解释强化学习智能体的新兴行为。
Sep, 2022
该研究提出了一种学习马尔科夫状态抽象表示的新方法,结合逆向模型估计和时态对比学习,可以提高强化学习中的样本效率。
Jun, 2021
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。
Jul, 2023
该研究利用一种新的形式结构,提出了一种基于模型的层次强化学习算法,名为 PALM,可学习独立、模块化的转移和奖励模型用于概率规划,并演示了其将规划和执行进行集成,以快速有效地学习抽象、分层模型以及转移至新的相关任务的增强潜力。
Dec, 2019
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
通过学习抽象 MDP(Markov 决策过程)来提高智能体在多任务环境中的决策和学习效率。
探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题,并提出了一种全新的模型自适应框架 AMPO,使用 Wasserstein-1 距离来实现模型适应,结果在多项连续控制测试任务中实现了最先进的性能。
Oct, 2020