L1 - 鲁棒马尔可夫决策过程的部分策略迭代
本文通过探究 s-rectangular Lp 鲁棒 MDP 和策略正则化 MDP 的等价性,发现在 Optimal Bellman 算子中阈值策略在 top k 动作中起着重要作用,并引入了新的概念如优化和阈值。
May, 2022
研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间 MDP 的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比,本文提出了一个名为 RPMD 的策略型一阶方法,并对于两种递增步长的情形,建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。
Sep, 2022
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
该论文提出了一种新的方法来学习具有不确定性的鲁棒 Markov 决策过程,即基于正则化的鲁棒 MDP 算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。
Oct, 2021
本研究致力于学习具有鲁棒特性的 Markov 决策过程。通过分析规则化的 Markov 决策过程,我们建立了奖励鲁棒 Markov 决策过程和规则化 Markov 决策过程之间的联系,并将该关系扩展到具有不确定性转移的 Markov 决策过程。进一步地,我们推广了规则化 MDPs 到双重规则化 MDPs,并在表格和物理领域进行了数值验证。
Mar, 2023
马尔科夫决策过程(MDPs)为不确定性下的顺序决策制定了标准框架,但是 MDPs 中的转移概率通常是从数据中估计的,并且 MDPs 不考虑数据的不确定性。鲁棒马尔科夫决策过程(RMDPs)通过为每个转移分配不确定性集合而不是单个概率值来解决了 MDPs 的这个缺点。解决 RMDPs 的目标是找到一种策略,使得在不确定性集合上最大化最坏情况的性能。本文考虑多面体 RMDPs,在其中所有的不确定性集合都是多面体,并研究解决长期平均回报的多面体 RMDPs 的问题。我们关注计算复杂性方面和高效算法。我们提出了这个问题的一个新视角,并且证明它可以简化为解决具有有限状态和动作空间的长期平均回报的轮流随机游戏。这个简化使我们能够得出几个重要的结论,这些结论以前是未知的。首先,我们为解决长期平均回报的多面体 RMDPs 推导出新的计算复杂性界限,首次证明它们的阈值决策问题属于 NP coNP,并且它们具有具有亚指数期望运行时间的随机算法。其次,我们提出了鲁棒多面体策略迭代(RPPI),一种用于解决长期平均回报的多面体 RMDPs 的新型策略迭代算法。我们的实验评估表明,相比基于值迭代的现有方法,RPPI 在解决长期平均回报的多面体 RMDPs 方面更加高效。
Dec, 2023
该研究探讨了在不确定参数的最具对抗性分布下,实现最大期望总回报的分布鲁棒 MDP,通过在模糊集格式中加入不确定性的广义矩和统计距离信息,将泛化动量和统计距离模糊集的现有研究推广到后者类别,进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下,当满足一些温和的技术条件时,可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。
Jan, 2018
本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。
Jun, 2013