两次正则化的 MDPs 及其鲁棒性与正则化之间的等价性
本研究致力于学习具有鲁棒特性的 Markov 决策过程。通过分析规则化的 Markov 决策过程,我们建立了奖励鲁棒 Markov 决策过程和规则化 Markov 决策过程之间的联系,并将该关系扩展到具有不确定性转移的 Markov 决策过程。进一步地,我们推广了规则化 MDPs 到双重规则化 MDPs,并在表格和物理领域进行了数值验证。
Mar, 2023
本文通过探究 s-rectangular Lp 鲁棒 MDP 和策略正则化 MDP 的等价性,发现在 Optimal Bellman 算子中阈值策略在 top k 动作中起着重要作用,并引入了新的概念如优化和阈值。
May, 2022
论文探讨了基于强化学习的鲁棒性 Markov 决策问题,提出了风险敏感 MDP 和正则化鲁棒 MDP 之间的等价关系,并且导出用于正则化鲁棒 MDP 问题的策略梯度定理,提出了基于样本的离线学习算法 RFZI 来解决正则化鲁棒 MDP 问题,并分析了算法的样本复杂度。
Jun, 2023
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
本文探讨了在考虑转移概率不确定性时,如何高效地解决具有 s - 和 sa - 矩形模糊集定义的鲁棒 MDP 问题,并提出了一种新的策略迭代方案和快速计算鲁棒 Bellman 算子的方法。实验结果表明,这些方法比使用线性规划求解器结合鲁棒值迭代的现有方法快得多。
Jun, 2020
本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。
Jun, 2013
本文介绍了一个基于 Constrained Markov Decision Process(CMDP)和 Robust Markov Decision Process(RMDP)的框架,即 Robust Constrained-MDPs(RCMDP),用于设计强大而稳健的强化学习算法,并提供相应的约束满足保证。同时,还将这个框架用于从模拟到真实世界的政策转移中,以实现对模型不确定性的强鲁棒性和安全保障。最后,我们在库存管理问题上验证了这个框架的有效性。
Oct, 2020
本篇论文研究鲁棒平均回报 MDP 问题,旨在找到一种策略,使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题,证明了当折扣因子趋近于 1 时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规划方法。同时,也考虑了直接处理鲁棒平均回报 MDP 问题的情况,并导出了其鲁棒 Bellman 方程,设计了一种鲁棒相对价值迭代算法来求解其策略。
Jan, 2023