通过强化学习扩展鲁棒的马尔可夫决策过程

Jun, 2013

通过强化学习扩展鲁棒的马尔可夫决策过程

Scaling Up Robust MDPs by Reinforcement Learning

Aviv Tamar, Huan Xu, Shie Mannor

TL;DR本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Abstract

We consider large-scale markov decision processes (MDPs) with parameter uncertainty, under the robust mdp paradigm. Previous studies showed that robust MDPs, based on a minimax approach to handle uncertainty, can

markov decision processes parameter uncertainty robust mdp dynamic programming reinforcement learning

发现论文，激发创造

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

通过无悔动力学求解健壮 MDP

通过解决最小最大迭代优化问题的简单框架，我们利用在线非凸学习和改进策略梯度方法的技术，提出了一种算法，该算法在 $O (1/T^{1/2})$ 的时间内能最大化带着鲁棒性的价值函数。

May, 2023

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

通过对抗内核逼近实现稳健强化学习

通过对 RMDPs 中的敌对核进行特征化，我们提出了一种新颖的在线鲁棒 RL 方法，该方法近似敌对核并使用标准的（非鲁棒）RL 算法来学习鲁棒策略。特别是，该方法可应用于任何基础 RL 算法之上，可以轻松扩展到高维领域。在经典控制任务，MinAtar 和 DeepMind Control Suite 中的实验表明了我们方法的有效性和适用性。

Jun, 2023

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

稳健强化学习的贝叶斯方法

本文提出了基于不确定性鲁棒贝尔曼方程（URBE）的 DQN-URBE 算法，通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数，并能够快速调整参数以适应系统行为的变化，在保持鲁棒性的同时获得更少保守的解。

May, 2019

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

面向序列决策的分布稳健优化

该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Jan, 2018

鲁棒平均奖励马尔科夫决策过程

本篇论文研究鲁棒平均回报 MDP 问题，旨在找到一种策略，使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题，证明了当折扣因子趋近于 1 时，鲁棒折扣价值函数收敛于鲁棒平均回报，并设计了鲁棒动态规划方法。同时，也考虑了直接处理鲁棒平均回报 MDP 问题的情况，并导出了其鲁棒 Bellman 方程，设计了一种鲁棒相对价值迭代算法来求解其策略。

Jan, 2023