马尔可夫决策过程中多重平均回报目标的统一视角

Feb, 2015

马尔可夫决策过程中多重平均回报目标的统一视角

Unifying Two Views on Multiple Mean-Payoff Objectives in Markov Decision Processes

Krishnendu Chatterjee, Zuzana Křetínská, Jan Křetínský

TL;DR本文研究具有多个极限平均（或均值支付）目标的马尔可夫决策过程，囊括了优化期望和满足约束的两种语义，并考虑到具有风险规避策略的优化问题。文章的主要结果包括：多项式时间的算法、多项式大小的 Pareto 曲线近似计算和策略复杂性的完整刻画。

Abstract

We consider markov decision processes (MDPs) with multiple limit-average (or mean-payoff) objectives. There exist two different views: (i) the expectation semantics, where the goal is to optimize the expected mean-payoff objective, and (ii) the satisfaction semantics, where the goal is

markov decision processes limit-average objectives optimization strategies risk-averse

发现论文，激发创造

可数 MDP 中点收益、平均收益和总收益目标的策略复杂性

研究使用实值转移奖励的可数无限马尔可夫决策过程（MDPs），并针对不同奖励指标下的策略复杂性建立了完整的模型，确定了实现ɛ最优策略所需的最小记忆量。

Mar, 2022

带折扣求和目标的 POMDP 中带有概率保证的期望优化

本文研究了部分可观测马尔可夫决策过程在期望优化时如何确保回报具备一定概率性保证的问题，并提出了解决这种问题的算法。

Apr, 2018

马尔可夫决策过程的多目标模型检查

提供了一种高效的算法来解决多目标模型检验问题，该算法通过随机化策略来实现，在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线，并使用图论方法分析了一些定性多目标模型检验问题。

Oct, 2008

折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架

用假均值将混合风险下的 MDP 转化为标准 MDP，并提出一种基于二级优化结构的统一算法框架，该框架还允许收敛性分析。通过数值实验，验证了该算法的有效性。

Jan, 2022

马尔可夫决策过程中的均值 - 方差优化

本文研究了含有累积回报的均值和方差的性能度量下的有限时域马尔科夫决策过程 (Markov decision processes)，并证明了对于某些情况下，计算在方差约束下使均值回报最大的策略的复杂度是 NP 难问题，并提供了伪多项式精确和逼近算法。

Apr, 2011

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

多维马尔可夫决策过程中的百分位查询

本文研究带有多维权重的马尔可夫决策过程中百分位查询的复杂性，并给出了算法以综合满足这样的限制的策略，扩展了 Etessami 等人在非加权 MDPs 上研究的多目标模型检查问题到数量级问题。

Oct, 2014

约束风险厌恶马尔可夫决策过程

该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略，并通过数值实验验证了该方法的有效性。

Dec, 2020

具有量化目标的随机博弈价值迭代的停止准则

本文提出了应用于马尔可夫决策过程和随机游戏的价值迭代算法的停止准则，这是该领域首个用于计算总体回报和平均回报的任何时刻算法。我们的方法通过将问题降低到马尔可夫决策过程领域和直接应用于随机游戏领域中，统一了先前的算法并提出了目标独立的概念。

Apr, 2023

多目标马尔可夫决策过程中 Lorenz - 最优解的近似

本篇论文研究了多目标马尔可夫决策过程中的公平优化问题，并介绍了一种高效逼近无限时段，折扣多目标马尔可夫决策过程中 Lorenz 非支配解的方法。

Sep, 2013