非矩形不确定性集合的鲁棒MDP策略梯度算法
本文探讨了在考虑转移概率不确定性时,如何高效地解决具有s-和sa-矩形模糊集定义的鲁棒MDP问题,并提出了一种新的策略迭代方案和快速计算鲁棒Bellman算子的方法。实验结果表明,这些方法比使用线性规划求解器结合鲁棒值迭代的现有方法快得多。
Jun, 2020
本文研究了鲁棒马尔可夫决策过程的最优鲁棒策略和价值函数的非渐近和渐近性能,并考虑了不同的不确定性集。实验验证了最优鲁棒价值函数在理论和实际应用中均呈现出典型的 √n 比例的渐近正态性。
May, 2021
该论文提出了一种新的方法来学习具有不确定性的鲁棒Markov决策过程,即基于正则化的鲁棒MDP算法,与传统的鲁棒优化方法相比,它能够有效地降低计算复杂度并提高可扩展性。
Oct, 2021
本文通过探究s-rectangular Lp鲁棒MDP和策略正则化MDP的等价性,发现在Optimal Bellman算子中阈值策略在top k动作中起着重要作用,并引入了新的概念如优化和阈值。
May, 2022
研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间MDP的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准MDP规划相比,本文提出了一个名为RPMD的策略型一阶方法,并对于两种递增步长的情形,建立了寻找ε-最优策略的O(log(1/ε))和O(1/ε)迭代复杂度。本文还提出了一种名为SRPMD的随机变量。
Sep, 2022
本文提出了一种新颖的稳健策略梯度方法 (RPG) 用于 s-矩形稳健马尔可夫决策过程(MDP)。我们首次导出了闭式的对抗性核,并证明它是名义核的一阶扰动。这使我们能够得到一个类似于在非稳健 MDP 中使用的 RPG 的算法,但具有稳健的 Q 值函数和一个附加的校正项。稳健的 Q 值和校正项都可以高效计算,因此我们方法的时间复杂度与非稳健 MDP 的时间复杂度相匹配,比现有的黑盒方法快得多。
Jan, 2023
本研究致力于学习具有鲁棒特性的Markov决策过程。通过分析规则化的Markov决策过程,我们建立了奖励鲁棒Markov决策过程和规则化Markov决策过程之间的联系,并将该关系扩展到具有不确定性转移的Markov决策过程。进一步地,我们推广了规则化MDPs到双重规则化MDPs,并在表格和物理领域进行了数值验证。
Mar, 2023
论文探讨了基于强化学习的鲁棒性Markov决策问题,提出了风险敏感MDP和正则化鲁棒MDP之间的等价关系,并且导出用于正则化鲁棒MDP问题的策略梯度定理,提出了基于样本的离线学习算法RFZI来解决正则化鲁棒MDP问题,并分析了算法的样本复杂度。
Jun, 2023
我们采用政策优化观点对具有s-矩形不确定性集的鲁棒马尔可夫决策过程进行政策评估。所开发的方法被称为一阶政策评估(FRPE),为确定性(离线)和随机(在线)设置下的鲁棒政策评估提供了第一种统一框架,无论是表格表示还是通用函数逼近。具体而言,我们在确定性设置中建立了线性收敛性,并在随机设置中具有O(1/ε^2)的抽样复杂度。FRPE还自然地推广到具有(s, a)-矩形不确定性集的鲁棒状态-动作值函数的评估。我们讨论了将所开发结果应用于大规模鲁棒MDP的随机政策优化。
Jul, 2023