具有连续行动空间的区间马尔科夫决策过程

Nov, 2022

具有连续行动空间的区间马尔科夫决策过程

Interval Markov Decision Processes with Continuous Action-Spaces

Giannis Delimpaltadakis, Morteza Lahijanian, Manuel Mazo Jr., Luca Laurenti

TL;DR通过引入连续动作 Interval Markov Decision Processes (caIMDP) 以及研究求解最大化预期累积奖励的 value iteration 问题，我们证明了在动态系统控制抽象中使用线性规划等方法可以高效地实现在连续动作空间 IMDP 上的值迭代。

Abstract

interval markov decision processes (IMDPs) are uncertain Markov models, where the transition probabilities belong to intervals. Recently, there has been a surge of research on employing IMDPs as abstractions of stochastic systems for →

interval markov decision processes continuous-action imdps value iteration control synthesis linear programming

发现论文，激发创造

一种基于增量采样的随机最优控制算法

本文提出了一种名为增量马尔可夫决策过程（iMDP）的算法，该算法基于最近在确定性路径规划的马尔可夫链逼近方法和基于采样的算法的进展，用于计算一类连续时间、连续空间随机最优控制问题的最优控制策略，该算法通过状态空间的随机采样生成原问题的有限离散化序列，并且在计算过程中，能够以随时随地的方式更新控制策略。

Feb, 2012

具有连续动作空间的低秩马尔可夫决策进程

在这项研究中，我们研究了将低秩马尔可夫决策过程（MDPs）的方法扩展到具有连续动作的情况，并探索了多种具体方法。我们以 FLAMBE 算法作为案例研究，表明在动作允许连续的情况下，得到了类似的 PAC 界限。

Nov, 2023

深度强化学习中连续动作的离散顺序预测

本文提出了一种使用神经网络模型对连续动作空间离散化建模的方法，通过预测单个维度的方法对高维空间进行建模，实现了有效解决高维连续控制问题的技术，其中利用基于 Q learning 算法的离策略 (off-policy) 方法取得了最先进的结果。

May, 2017

用连续和离散变量解决因式化马尔可夫决策过程

我们提出了一个框架来处理离散和连续变量的混合模型的随机规划问题，使用混合马尔可夫决策过程的方法，通过线性规划近似来解决这些问题，并遵循混合动态贝叶斯网络的表示形式，已在一系列控制问题中进行了实验。

Jul, 2012

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

随机算法与 PAC 界限在连续空间逆向强化学习中的应用

该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程，并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况，并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性，引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题，并对其性质进行了深入分析。其次，采用线性函数逼近器和随机化方法，即场景方法和相关的概率可行性保证，为逆问题提供了 ε- 最优解。对于所需的近似精度，进一步讨论了样本复杂度。最后，针对只有有限一组专家示范和生成模型可供使用的更加现实的情况，给出了使用样本时产生的误差界限。

May, 2024

在连续状态空间中寻找反事实最优行动序列

针对连续环境的顺序决策问题，本文提出了一种基于有限时间马尔可夫决策过程和双射结构因果模型的搜索方法，并在真实临床数据上进行了实验。

Jun, 2023

合作多智能体马尔可夫决策过程中的近似线性规划和分散策略改进

我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法，其中使用近似线性规划计算近似值函数并实施分散策略改进。

Nov, 2023

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

CAQL: 连续动作 Q 学习

本研究基于价值强化学习中的连续动作 Q-learning，提出了一个 CAQL 算法，利用混合整数规划来实现最大化问题优化，该方法相对于近似方法具有更好地鲁棒性和推广性，同时在研究中表现优于基于策略的方法。

Sep, 2019