鲁棒马尔科夫决策过程的一阶策略优化

Sep, 2022

鲁棒马尔科夫决策过程的一阶策略优化

First-order Policy Optimization for Robust Markov Decision Process

Yan Li, Tuo Zhao, Guanghui Lan

TL;DR研究如何解决具有不确定转移内核的折现，有限状态，有限行动空间 MDP 的强鲁棒性问题，旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比，本文提出了一个名为 RPMD 的策略型一阶方法，并对于两种递增步长的情形，建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。

Abstract

We consider the problem of solving robust markov decision process (MDP), which involves a set of discounted, finite state, finite action space MDPs with uncertain transition kernels. The goal of planning is to fi

markov decision process robust policy uncertain transition kernels bregman divergence stochastic variant

发现论文，激发创造

强化学习的一阶政策优化方法实现鲁棒政策评估

我们采用政策优化观点对具有 s - 矩形不确定性集的鲁棒马尔可夫决策过程进行政策评估。所开发的方法被称为一阶政策评估（FRPE），为确定性（离线）和随机（在线）设置下的鲁棒政策评估提供了第一种统一框架，无论是表格表示还是通用函数逼近。具体而言，我们在确定性设置中建立了线性收敛性，并在随机设置中具有 O (1/ε^2) 的抽样复杂度。FRPE 还自然地推广到具有 (s, a)- 矩形不确定性集的鲁棒状态 - 动作值函数的评估。我们讨论了将所开发结果应用于大规模鲁棒 MDP 的随机政策优化。

Jul, 2023

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

L1 - 鲁棒马尔可夫决策过程的部分策略迭代

本文探讨了在考虑转移概率不确定性时，如何高效地解决具有 s - 和 sa - 矩形模糊集定义的鲁棒 MDP 问题，并提出了一种新的策略迭代方案和快速计算鲁棒 Bellman 算子的方法。实验结果表明，这些方法比使用线性规划求解器结合鲁棒值迭代的现有方法快得多。

Jun, 2020

健壮马氏决策过程中高效锐利的离策略评估

在环境变化、干扰函数估计不一致和有限样本学习的情况下，本研究旨在评估策略值，并提出了一种扰动模型，可以根据转移观测对传统 MDP 进行边界估计。

Mar, 2024

面向序列决策的分布稳健优化

该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Jan, 2018

鲁棒马尔可夫决策过程：超越矩形假设

本论文利用因子模型处理 Markov 决策过程中的参数不确定性问题，提出了一种鲁棒性方法来有效计算最优策略，并在相关领域进行了实验研究。

Nov, 2018

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

稳健性马尔可夫决策过程理论研究：样本复杂度与渐近性

本文研究了鲁棒马尔可夫决策过程的最优鲁棒策略和价值函数的非渐近和渐近性能，并考虑了不同的不确定性集。实验验证了最优鲁棒价值函数在理论和实际应用中均呈现出典型的 √n 比例的渐近正态性。

May, 2021

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022