多目标马尔可夫决策过程中 Lorenz - 最优解的近似

Sep, 2013

多目标马尔可夫决策过程中 Lorenz - 最优解的近似

Approximation of Lorenz-Optimal Solutions in Multiobjective Markov Decision Processes

Patrice Perny, Paul Weng, Judy Goldsmith, Josiah Hanna

TL;DR本篇论文研究了多目标马尔可夫决策过程中的公平优化问题，并介绍了一种高效逼近无限时段，折扣多目标马尔可夫决策过程中 Lorenz 非支配解的方法。

Abstract

This paper is devoted to fair optimization in multiobjective Markov Decision Processes (MOMDPs). A MOMDP is an extension of the MDP model for planning under uncertainty while trying to optimize several reward functions simultaneously. This applies to multiagent problems when rewards de

multiobjective markov decision processes lorenz dominance pareto dominance policy determination

发现论文，激发创造

部分可观察马尔可夫决策过程的值函数逼近

本文介绍了部分可观测马尔可夫决策过程 (POMDP) 的近似（启发式）方法，研究其性质和关系，并提供一些新见解。该理论结果在代理导航领域的问题上得到了实验支持。

Jun, 2011

多智能体规划中具有乐观影响的本地价值 --- 扩展版

本论文提出了一种影响 - 乐观上界策略，用于解决具有非因式价值函数的解离式部分可观察 MDP 的规模为数十甚至数百个代理的规划问题，并在数字上比较了不同的上界，并证明了启发式解法的优化保证，展示了该方法的多代理规划方面的潜在应用。

Feb, 2015

马尔可夫决策过程的多目标模型检查

提供了一种高效的算法来解决多目标模型检验问题，该算法通过随机化策略来实现，在多项式时间内计算了一组 ω -regular 性质的近似 Pareto 曲线，并使用图论方法分析了一些定性多目标模型检验问题。

Oct, 2008

线性规划方法求解约束部分可观测的马尔可夫决策过程

使用 LP 模型结合基于网格的近似方法生成近似策略，研究了解决限制观测 Markov 决策过程的效果。结果表明，LP 模型可有效地生成有限和无限时间段问题的近似策略，同时提供将各种附加约束集成到模型中的灵活性。

Jun, 2022

具有连续 Pareto 前沿逼近的多目标强化学习 —— 补充材料

使用梯度信息和基于策略的方法在多目标 MDP 中学习连续的 Pareto 边界序列，通过跟踪单个梯度上升运行来生成解决方案。

Jun, 2014

面向序列决策的分布稳健优化

该研究探讨了在不确定参数的最具对抗性分布下，实现最大期望总回报的分布鲁棒 MDP，通过在模糊集格式中加入不确定性的广义矩和统计距离信息，将泛化动量和统计距离模糊集的现有研究推广到后者类别，进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下，当满足一些温和的技术条件时，可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。

Jan, 2018

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

约束风险厌恶马尔可夫决策过程

该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险 - 厌恶问题的可行马尔可夫策略，并通过数值实验验证了该方法的有效性。

Dec, 2020

通过线性规划对偶解决大规模马尔可夫决策问题

本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法，该方法基于一小组策略的占用度量的低维度逼近，并提出了一个有效的算法，可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失，并在队列应用中展示了该方法的有效性。

Jan, 2019

具有共同噪声和开环控制的均场马尔可夫决策过程

在条件 McKean-Vlasov MDP 模型中，对状态和行动间的平均场作用以及存在公共噪声和无限时间视野下的开环控制的优化进行了详尽的研究。通过间隔最优匹配证明了 CMKV-MDP 与概率测度空间上的一般抬升 MDP 之间的对应，并且通过构建值函数所满足的动态规划 Bellman 定点方程，证明了存在最优的随机反馈控制。

Dec, 2019