通过无悔动力学求解健壮 MDP

May, 2023

Solving Robust MDPs through No-Regret Dynamics

Etash Kumar Guha, Jason D. Lee

TL;DR通过解决最小最大迭代优化问题的简单框架，我们利用在线非凸学习和改进策略梯度方法的技术，提出了一种算法，该算法在 $O (1/T^{1/2})$ 的时间内能最大化带着鲁棒性的价值函数。

Abstract

reinforcement learning is a powerful framework for training agents to navigate different situations, but it is susceptible to changes in environmental dynamics. However, solving markov decision processes that are

reinforcement learning markov decision processes robustness iterative optimization policy gradient methods

发现论文，激发创造

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

光滑 MDPs 中的无悔强化学习

为了解决在连续状态和 / 或动作空间中得到强化学习（RL）无后悔保证仍然是该领域的主要挑战之一，本论文引入了一种新的结构性假设，即 $ u-$ 平滑性，它概括了迄今已提出的大多数设置（如线性 MDPs 和 Lipschitz MDPs），我们提出了两种算法，在 $ u-$ 平滑 MDPs 中对后悔进行最小化，这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP 表示的思想上，第一种算法 extsc {Legendre-Eleanor} 在较弱的假设下实现无后悔属性，但计算效率低，而第二种算法 extsc {Legendre-LSVI} 虽然运行时间是多项式级别，但适用于较小的问题类别，经分析它们的后悔性能，我们将结果与 RL 理论的最新成果进行了比较，表明我们的算法达到了最佳保证。

Feb, 2024

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

模型不匹配下的强化学习

论文研究了缺失真实环境信息的强化学习问题，将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中，提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法，并通过函数逼近扩展到大规模 MDPs，证明了其收敛性，并给出了保证局部最小的随机梯度下降算法。

Jun, 2017

利用强化学习处理非累计目标的决策过程

本文介绍了非累积马尔可夫决策过程（NCMDPs）与标准马尔可夫决策过程（MDPs）之间的一种映射关系，并展示了在强化学习中的应用，包括经典控制、金融组合优化和离散优化问题。通过我们的方法，相较于依赖标准 MDPs，我们可以改善最终性能和训练时间。

May, 2024

带模型不确定性的在线强化学习

本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法，可以在线上和增量的情况下实现，在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数，并证明了 TDC 算法渐近收敛到一些稳定点，在数值实验中进一步验证了算法的鲁棒性。

Sep, 2021

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

使用值函数界限在没有领域知识的情况下加强强化学习的问题相关遗憾范围

该研究针对有限时间段的离散马尔科夫决策问题，提出了一种算法并分析了其性能上限，得出了最先进的范围和如果环境规范小则更紧的限制，其不需要先前对应环境规范的知识，能解决经验学习中常常遇到的限制问题。

Jan, 2019

鲁棒平均奖励马尔科夫决策过程

本篇论文研究鲁棒平均回报 MDP 问题，旨在找到一种策略，使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题，证明了当折扣因子趋近于 1 时，鲁棒折扣价值函数收敛于鲁棒平均回报，并设计了鲁棒动态规划方法。同时，也考虑了直接处理鲁棒平均回报 MDP 问题的情况，并导出了其鲁棒 Bellman 方程，设计了一种鲁棒相对价值迭代算法来求解其策略。

Jan, 2023