通过随机博弈解决长期平均奖励健壮马尔可夫决策过程

Dec, 2023

通过随机博弈解决长期平均奖励健壮马尔可夫决策过程

Solving Long-run Average Reward Robust MDPs via Stochastic Games

Krishnendu Chatterjee, Ehsan Kafshdar Goharshady, Mehrdad Karrabi, Petr Novotný, Đorđe Žikelić

TL;DR马尔科夫决策过程（MDPs）为不确定性下的顺序决策制定了标准框架，但是MDPs中的转移概率通常是从数据中估计的，并且MDPs不考虑数据的不确定性。鲁棒马尔科夫决策过程（RMDPs）通过为每个转移分配不确定性集合而不是单个概率值来解决了MDPs的这个缺点。解决RMDPs的目标是找到一种策略，使得在不确定性集合上最大化最坏情况的性能。本文考虑多面体RMDPs，在其中所有的不确定性集合都是多面体，并研究解决长期平均回报的多面体RMDPs的问题。我们关注计算复杂性方面和高效算法。我们提出了这个问题的一个新视角，并且证明它可以简化为解决具有有限状态和动作空间的长期平均回报的轮流随机游戏。这个简化使我们能够得出几个重要的结论，这些结论以前是未知的。首先，我们为解决长期平均回报的多面体RMDPs推导出新的计算复杂性界限，首次证明它们的阈值决策问题属于NP coNP，并且它们具有具有亚指数期望运行时间的随机算法。其次，我们提出了鲁棒多面体策略迭代（RPPI），一种用于解决长期平均回报的多面体RMDPs的新型策略迭代算法。我们的实验评估表明，相比基于值迭代的现有方法，RPPI在解决长期平均回报的多面体RMDPs方面更加高效。

Abstract

markov decision processes (MDPs) provide a standard framework for sequential decision making under uncertainty. However, transition probabilities in MDPs are often estimated from data and MDPs do not take data

发现论文，激发创造

稀疏奖励确定性马尔可夫决策过程的快速在线精确解法

介绍了一种新的方法，确切高效地解决了具有稀疏奖励来源的确定性连续MDP问题，可以提高在机器人和无人系统等领域的应用价值，减少计算复杂度。

May, 2018

两次正则化的MDPs及其鲁棒性与正则化之间的等价性

该论文提出了一种新的方法来学习具有不确定性的鲁棒Markov决策过程，即基于正则化的鲁棒MDP算法，与传统的鲁棒优化方法相比，它能够有效地降低计算复杂度并提高可扩展性。

Oct, 2021

基于正则化的鲁棒马尔可夫决策过程高效策略迭代

本文通过探究s-rectangular Lp鲁棒MDP和策略正则化MDP的等价性，发现在Optimal Bellman算子中阈值策略在top k动作中起着重要作用，并引入了新的概念如优化和阈值。

May, 2022

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

鲁棒平均奖励马尔科夫决策过程

本篇论文研究鲁棒平均回报MDP问题，旨在找到一种策略，使其在不确定性的MDP集合中的最坏平均回报最优化。作者探讨了利用折扣MDP实现这个问题，证明了当折扣因子趋近于1时，鲁棒折扣价值函数收敛于鲁棒平均回报，并设计了鲁棒动态规划方法。同时，也考虑了直接处理鲁棒平均回报MDP问题的情况，并导出了其鲁棒Bellman方程，设计了一种鲁棒相对价值迭代算法来求解其策略。

Jan, 2023

具有双重正则化的马尔可夫决策过程: 强鲁棒性和正则化之间的等价性

本研究致力于学习具有鲁棒特性的Markov决策过程。通过分析规则化的Markov决策过程，我们建立了奖励鲁棒Markov决策过程和规则化Markov决策过程之间的联系，并将该关系扩展到具有不确定性转移的Markov决策过程。进一步地，我们推广了规则化MDPs到双重规则化MDPs，并在表格和物理领域进行了数值验证。

Mar, 2023

具有量化目标的随机博弈价值迭代的停止准则

本文提出了应用于马尔可夫决策过程和随机游戏的价值迭代算法的停止准则，这是该领域首个用于计算总体回报和平均回报的任何时刻算法。我们的方法通过将问题降低到马尔可夫决策过程领域和直接应用于随机游戏领域中，统一了先前的算法并提出了目标独立的概念。

Apr, 2023

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于Markov决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

关于马尔可夫决策过程的奖励结构

马尔可夫决策过程在强化学习中起着关键作用，本研究探讨了多种与强化学习相关的'成本'，研究了策略评估的样本复杂度，并开发了一种具有实例特定误差界限的新估计器；在在线遗憾最小化设置下，通过引入基于奖励的常量和基于潜力的奖励塑形技术，提供了理论上的解释；提出了一种安全强化学习研究方法，建立了重置效率的量化概念；针对具有多个奖励函数的决策过程，开发了一个能够计算出帕累托最优随机策略的规划算法。

Aug, 2023

通过频率正规化解决非矩形奖励鲁棒MDPs

研究强健的马尔可夫决策过程中的关键问题，如不确定性集合、计算可行性以及策略访问频率正则化方法，并引入一种收敛的策略梯度方法进行分析。

Sep, 2023