稳健强化学习的贝叶斯方法

May, 2019

A Bayesian Approach to Robust Reinforcement Learning

Esther Derman, Daniel Mankowitz, Timothy Mann, Shie Mannor

TL;DR本文提出了基于不确定性鲁棒贝尔曼方程（URBE）的 DQN-URBE 算法，通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数，并能够快速调整参数以适应系统行为的变化，在保持鲁棒性的同时获得更少保守的解。

Abstract

robust markov decision processes (RMDPs) intend to ensure robustness with respect to changing or adversarial system behavior. In this framework, transitions are modeled as arbitrary elements of a known and properly structured uncertainty set and a robust optimal policy can be derived u

robust markov decision processes bayesian approach uncertainty robust bellman equation dqn-urbe algorithm model misspecification

发现论文，激发创造

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

具有对抗性辅助模型的强化学习鲁棒模型

应用鲁棒 MDPs 框架及引入一种新型的学习过渡模型，该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性，并在实验中展示了该模型在失真 MDPs 中提高学习策略性能的显著改进。

Jun, 2024

鲁棒马尔可夫决策过程：超越矩形假设

本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题，提出了一种鲁棒性方法来有效计算最优策略，并在相关领域进行了实验研究。

Nov, 2018

超越置信区间：坚实的贝叶斯不确定性集合用于强韧 MDPs

通过采用贝叶斯推断优化模糊集的大小和位置，提出了一种新范式，无需使用置信区间作为模糊集，可在保证健壮性的同时获得更好的解，基于理论分析和实证结果表明其安全性和实用性。

Feb, 2019

鲁棒受限制马尔科夫决策过程：在模型不确定性下进行软受限制鲁棒策略优化

本文介绍了一个基于 Constrained Markov Decision Process（CMDP）和 Robust Markov Decision Process（RMDP）的框架，即 Robust Constrained-MDPs（RCMDP），用于设计强大而稳健的强化学习算法，并提供相应的约束满足保证。同时，还将这个框架用于从模拟到真实世界的政策转移中，以实现对模型不确定性的强鲁棒性和安全保障。最后，我们在库存管理问题上验证了这个框架的有效性。

Oct, 2020

鲁棒平均奖励马尔科夫决策过程

本篇论文研究鲁棒平均回报 MDP 问题，旨在找到一种策略，使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题，证明了当折扣因子趋近于 1 时，鲁棒折扣价值函数收敛于鲁棒平均回报，并设计了鲁棒动态规划方法。同时，也考虑了直接处理鲁棒平均回报 MDP 问题的情况，并导出了其鲁棒 Bellman 方程，设计了一种鲁棒相对价值迭代算法来求解其策略。

Jan, 2023

实用鲁棒强化学习：邻域不确定性集和双代理算法

介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法，同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术，最终将其应用于各种存在模型不确定性的强化学习应用中。

May, 2023