强健的马尔可夫决策流程即时学习
本文提出了基于不确定性鲁棒贝尔曼方程(URBE)的 DQN-URBE 算法,通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数,并能够快速调整参数以适应系统行为的变化,在保持鲁棒性的同时获得更少保守的解。
May, 2019
该研究探讨了在不确定参数的最具对抗性分布下,实现最大期望总回报的分布鲁棒 MDP,通过在模糊集格式中加入不确定性的广义矩和统计距离信息,将泛化动量和统计距离模糊集的现有研究推广到后者类别,进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下,当满足一些温和的技术条件时,可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。
Jan, 2018
本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。
Jun, 2013
本文介绍了一个基于 Constrained Markov Decision Process(CMDP)和 Robust Markov Decision Process(RMDP)的框架,即 Robust Constrained-MDPs(RCMDP),用于设计强大而稳健的强化学习算法,并提供相应的约束满足保证。同时,还将这个框架用于从模拟到真实世界的政策转移中,以实现对模型不确定性的强鲁棒性和安全保障。最后,我们在库存管理问题上验证了这个框架的有效性。
Oct, 2020
本研究提出了一种基于 MDPs 的风险受限规划算法,它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合,以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。
Feb, 2020
该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程,即基于正则化的鲁棒 MDP 算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。
Oct, 2021
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。
Jun, 2024
鉴于训练和部署之间环境变化的需求,我们对分布稳健强化学习(DRRL)的理论基础做出贡献。通过一个以分布稳健马尔可夫决策过程(DRMDPs)为核心的综合建模框架,我们严谨地构建了适用于决策者和对手的各种建模属性。此外,我们还研究了对手引起的偏移的灵活性,并检验了动态规划原理的存在条件。从算法的角度来看,动态规划原理的存在具有重要意义,因为大多数现有的数据和计算效率强化学习算法依赖于该原理。我们提供了从统一方法论出发的简化证明以及不存在全面广义动态规划原理的场景的反例。
Nov, 2023