基于树搜索的随机执行延迟下的策略优化
该研究提出了一种针对 MDP 的决策学习与规划框架,其中决策制定者执行的动作有 $m$ 步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。
Jan, 2021
该研究提出了延迟感知的马尔可夫决策过程的正式定义,并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架,可以将多步延迟纳入学习到的系统模型中,而无需进行学习。 与 Gym 和 MuJoCo 平台进行的实验表明,与非策略模型无关的强化学习方法相比,所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。
May, 2020
在延迟观测环境中,通过包含延迟窗口内的动作来增加状态,以恢复马尔科夫特性,从而实现强化学习,但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能,本工作引入了一种称为变分延迟策略优化(VDPO)的新框架,将延迟强化学习重新构建为一个变分推断问题。该问题进一步被建模为一个两步迭代优化问题,其中第一步是在无延迟环境中进行时序差分学习,而第二步是行为克隆,其效率比时序差分学习要高得多。我们不仅从样本复杂度和性能方面进行了理论分析,而且还通过在 MuJoCo 基准测试中的实验证明,VDPO 可以与最先进的方法达到一致的性能,并且样本效率显著提高(样本量减少了约 50%)。
May, 2024
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。
Jun, 2024
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020
本文提出了一种名为增量马尔可夫决策过程(iMDP)的算法,该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展,用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略,该算法通过状态空间的随机采样生成原问题的有限离散化序列,并且在计算过程中,能够以随时随地的方式更新控制策略。
Feb, 2012
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024
本研究旨在解决在非恒定随机环境下的鲁棒零 - shot 规划问题,通过引入定义了特定类别的马尔可夫决策过程来进行计算建模,并提出了一种零 - shot 基于模型的风险敏感树搜索算法。
Apr, 2019
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022