具有共同噪声和开环控制的均场马尔可夫决策过程

Dec, 2019

具有共同噪声和开环控制的均场马尔可夫决策过程

Mean-field Markov decision processes with common noise and open-loop controls

Médéric Motte, Huyên Pham

TL;DR在条件 McKean-Vlasov MDP 模型中，对状态和行动间的平均场作用以及存在公共噪声和无限时间视野下的开环控制的优化进行了详尽的研究。通过间隔最优匹配证明了 CMKV-MDP 与概率测度空间上的一般抬升 MDP 之间的对应，并且通过构建值函数所满足的动态规划 Bellman 定点方程，证明了存在最优的随机反馈控制。

Abstract

We develop an exhaustive study of markov decision process (MDP) under mean field interaction both on states and actions in the presence of common noise, and when optimization is performed over open-loop controls on infinite horizon. Such model, called CMKV-MDP for conditional McKean-Vl

markov decision process mean field interaction optimal controls wasserstein distance dynamic programming

发现论文，激发创造

无模型均场强化学习：均场 MDP 和均场 Q-Learning

通过视角转换，我们研究了具有共同噪声的无限时长打折的均场控制问题，并提出了一种适用于均值场设置的 RL 方法。

Oct, 2019

基于蒙特卡洛规划的约束马尔可夫决策过程的随机控制

在随机控制的领域中，尤其是在经济学和工程学中，马尔可夫决策过程（MDPs）能够有效地建模各种随机决策过程，从资产管理到运输优化。本文定义了一个 MDP 框架，SD-MDP，通过解开 MDPs 的转移和奖励动态的因果结构，提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中，如蒙特卡洛树搜索（MCTS），我们还得出了算法的简单遗憾界限。最后，我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励（更低成本）的政策改进。

Jun, 2024

带有噪声状态观测的马尔可夫决策过程

通过建模不确定性来解决马尔可夫决策过程（MDPs）中一类特定的嘈杂状态观测问题，提出了两种新的算法方法，一种是用于有限时间窗口内有效噪声估计的二阶重复动作方法，另一种是一组贝叶斯算法，通过模拟实验证实了这些方法在不同场景下尤其在具有不同稳定分布的环境中的有效性。

Dec, 2023

一种基于增量采样的随机最优控制算法

本文提出了一种名为增量马尔可夫决策过程（iMDP）的算法，该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展，用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略，该算法通过状态空间的随机采样生成原问题的有限离散化序列，并且在计算过程中，能够以随时随地的方式更新控制策略。

Feb, 2012

均场随机控制问题的 Bellman 方程和黏性解

本文探讨了 McKean-Vlasov 随机微分方程的随机最优控制问题，通过使用反馈控制，将问题重构为只有过程的边际分布的确定性控制问题，并证明了动态规划原则在其一般形式下成立。然后，我们利用随机微分方程解的可导性概念，推导出平均场随机控制问题的 Bellman 方程，并在 McKean-Vlasov 框架下证明了验证定理。针对线性二次平均场控制问题，给出了 Bellman 方程的显式解，包括在平均方差组合选择和系统性风险模型等方面的应用。最后，我们考虑具有开环控制的 McKean-Vlasov 控制问题，并讨论相应的动态规划方程与闭环控制情况的比较。

Dec, 2015

间歇可观察的马尔科夫决策过程

本文研究了在不稳定状态信息下的 MDP，提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。

Feb, 2023

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

平均奖励马尔科夫决策过程的学习和规划

本研究提出了一种基于平均报酬 MDPs 的学习和规划算法，其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法，以及第一个离线学习算法，其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而不是常规错误更新平均报酬估计时，我们的所有算法都基于此。

Jun, 2020

学习马尔可夫势博弈的参数封闭回路策略

针对共享公共资源时的多智能体系统，本文研究马尔可夫潜在博弈，提出了一种基于参数策略的闭环型纳什均衡解法，通过解一个单目标优化问题获得了一个最优策略，应用于实例中的无合作通信博弈，并通过深度强化学习算法学习了一个接近博弈精确变分均衡的策略。

Feb, 2018

折扣费用下的平均场博弈中的马尔可夫 - 纳什均衡

本文研究了具有有限数量 N 的动态博弈的均场类型，每个时刻，代理通过其状态的经验分布相互耦合，并介绍了 Markov-Nash 均衡的新解决方案，证明了均衡存在于无穷大人口极限 N-> ∞下。

Dec, 2016