本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题,提出了一种鲁棒性方法来有效计算最优策略,并在相关领域进行了实验研究。
Nov, 2018
本文研究了参数不确定的马尔可夫决策过程,利用分布鲁棒优化框架来得到在最具有敌意的分布下的最大性能期望值。通过将不确定参数视为随机变量,本文泛化了以前的研究并证明,在较温和的技术条件下,可以高效地获得最优策略,这极大地扩展了分布鲁棒 MDP 集成不确定性的概率信息的灵活性。
Jan, 2015
本文介绍了一个基于 Constrained Markov Decision Process(CMDP)和 Robust Markov Decision Process(RMDP)的框架,即 Robust Constrained-MDPs(RCMDP),用于设计强大而稳健的强化学习算法,并提供相应的约束满足保证。同时,还将这个框架用于从模拟到真实世界的政策转移中,以实现对模型不确定性的强鲁棒性和安全保障。最后,我们在库存管理问题上验证了这个框架的有效性。
Oct, 2020
该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程,即基于正则化的鲁棒 MDP 算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。
Oct, 2021
本研究提出了一种基于 MDPs 的风险受限规划算法,它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合,以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。
Feb, 2020
本文研究了在不稳定状态信息下的 MDP,提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。
Feb, 2023
该研究探讨了在不确定参数的最具对抗性分布下,实现最大期望总回报的分布鲁棒 MDP,通过在模糊集格式中加入不确定性的广义矩和统计距离信息,将泛化动量和统计距离模糊集的现有研究推广到后者类别,进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下,当满足一些温和的技术条件时,可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。
Jan, 2018
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。
Jun, 2024
本文综述了决策制定中的不确定性状态,并关注走在经典解释之外的不确定性,尤其是区分了可变性不确定性和认知不确定性。作者提供了多种解决方案,包括离散和连续模型,从正式验证、控制抽象到强化学习,以优秀解法应对认知不确定性,并列举和讨论了处理丰富类型不确定性时出现的重要挑战。
Mar, 2023